See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/328772684 Fundamentos de los métodos computacionales en álgebra lineal Book · June 2018 CITATIONS READS 0 723 1 author: Yuri Skiba Universidad Nacional Autónoma de México 245 PUBLICATIONS 1,175 CITATIONS SEE PROFILE Some of the authors of this publication are also working on these related projects: Pollution of aquatic zones View project Numerical algorithms View project All content following this page was uploaded by Yuri Skiba on 18 November 2019. The user has requested enhancement of the downloaded file. i i “”Fundamentos de los Metodos Computacionales”” — 2017/11/24 — 16:31 — page 4 — #4 i i UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO Centro de Ciencias de la Atmósfera Dirección General de Publicaciones y Fomento Editorial i i i i Prólogo En las últimas décadas, la aparición y desarrollo de las computadoras, así como el uso de la modelación matemática en áreas científicas y técnicas provocó una revolución en el campo de los métodos numéricos que ahora se aplican en campos donde antes nadie ni siquiera imaginaba. A menudo, los métodos numéricos son la única posibilidad de resolver problemas complejos cuando es difícil o imposible aplicar los métodos analíticos, estadísticos o experimentales. Los métodos de diferencias finitas, de elementos finitos, de Galërkin, etc. permiten aproximar varios problemas continuos de física, química, matemática, biología, inmunología, etc., y reducirlos a sistemas discretos de ecuaciones. En el caso de un sistema de ecuaciones lineales, dicho sistema se resuelve por un método exacto basado en la factorización de la matriz, o por un método iterativo. Casi todos los cálculos numéricos en la física, mecánica, química, ingeniería, economía, finanzas, etcétera, implican álgebra lineal numérica, es decir, las operaciones con matrices. Por lo tanto, el álgebra lineal es una parte integral de la simulación numérica e importante en términos de rendimiento y eficiencia. Es preciso mencionar que la evolución de los métodos numéricos es lenta si se compara con el ritmo de desarrollo de las computadoras. A pesar de que aparecen nuevas ideas, los métodos básicos se mantienen como hace muchos años. Por ejemplo, el método de eliminación de Gauss continúa siendo uno de los mejores métodos para resolver sistemas de ecuaciones lineales, mientras que el método de Runge-Kutta sigue siendo uno de los mejores para hallar la solución de ecuaciones diferenciales ordinarias. Sin embargo, los métodos numéricos, como una rama independiente e importante de las matemáticas, están evolucionando permanentemente para aprovechar las enormes posibilidades de las computadoras modernas. i Entre las dificultades que afectan a la computación científica hay que mencionar inestabilidades, desaparición de los dígitos, extrañas raíces de ecuaciones, uso de algoritmos incorrectos, o el uso de un algoritmo que es correcto, pero bastante inapropiado para el problema. El análisis numérico dispone de las siguientes características básicas: 1) interés en temas tales como el tiempo de computadora necesario para hallar la solución y los requisitos impuestos por los algoritmos a la memoria del ordenador; 2) análisis de los errores causados por las operaciones aritméticas con un número limitado de bits en el ordenador. Por ejemplo, de acuerdo con la primera característica, el método de eliminación de Gauss se hace el más preferido para la resolución de sistemas lineales. Pero hay muchas variantes del método de eliminación de Gauss, y análisis de errores sirve como una guía para la selección de una de ellas. El presente libro está dedicado a una exposición de métodos computacionales para resolver los problemas básicos de álgebra lineal. Estos problemas incluyen la solución de un sistema de ecuaciones lineales, la inversión de una matriz, la solución de los problemas espectrales, completos y especiales, etcétera. El libro se destina básicamente a los estudiantes de nivel licenciatura y posgrado, o para autoeducación. También puede ser útil como una referencia para los ingenieros, físicos, ingenieros, que utilizan métodos numéricos de algebra lineal. El texto está basado en los cursos que el autor ha impartido durante últimos veinte años en el Departamento de Física de la Facultad de Ciencias y en los programas de posgrado de Ciencia e Ingeniería de Materiales y Ciencias de la Tierra de la UNAM. Mi objetivo era hacer que el libro de fácil acceso, pero al mismo tiempo lo suficientemente completo para presentar métodos y algoritmos numéricos y sus características principales. Contiene ejemplos y ejercicios que ayuden consolidar los conocimientos. ii Aprovecho la ocasión para expresar mi agradecimiento a la Dirección General de Asuntos del Personal Académico, UNAM, por su apoyo en la edición de este libro a través del Proyecto PE100116 del Programa de Apoyo a Proyectos para la Innovación y Mejoramiento de la Enseñanza. Agradeceré cualquier sugerencia que lectores pueden mandarme. Yuri N. Skiba Centro de Ciencias de la Atmósfera Universidad Nacional Autónoma de México México, D.F., 2016 iii Contenido Prólogo Conceptos preliminares Capítulo 1. Elementos básicos de análisis matricial 1.1. Introducción (importancia de los métodos numéricos; errores de cálculos; calidad de los cálculos: aproximación de un problema continuo, estabilidad de cálculos y convergencia de la solución numérica hacia la solución del problema continuo original; ejercicios). 1.2. Espacios lineales y vectores (axiomas de un espacio lineal; espacio euclidiano; espacio unitario; dimensión del espacio; base y coordenadas; combinación lineal de vectores; dependencia lineal de vectores; transformación de coordenadas; módulo de un vector; producto escalar; ortogonalidad de vectores; ortogonalización de Gram-Schmidt; desigualdad de Schwarz; normas vectoriales; desigualdad de Hölder; equivalencia de normas vectoriales; ejercicios). 1.3. Matrices (matriz rectangular; matriz cuadrada; operaciones con matrices; matriz nula; matriz identidad; matriz traspuesta; matriz conjugada; matriz adjunta; determinante de una matriz y sus propiedades; matriz inversa; eigenvalor y eigenvector de una matriz; traza de una matriz; imagen, espacio nulo y rango de una matriz; ejercicios). 1.4. Matrices especiales (matriz escalar; matriz diagonal; matriz tridiagonal superior; matriz triangular inferior; matriz simétrica; matriz hermitiana; matriz antisimétrica; matriz antihermitiana; matriz ortogonal; matriz unitaria; matriz normal; matriz definida positiva; matriz semidefinida positiva; matriz idempotente; matriz diagonal dominante; ejercicios). 1.5. Problema espectral (eigenvalores y eigenvectores; celda de Jordan; matriz diagonalizable; multiplicidad algebraica y multiplicidad geométrica de un eigenvalor; eigenespacio (espacio propio); forma cuadrática asociada con una matriz cuadrada; ejercicios). 1.6. Normas matriciales (axiomas de una norma matricial; norma de Frobenius (o de Hilbert-Schmidt); radio espectral; norma espectral; p-normas; norma consistente; norma subordinada; equivalencia de normas; estimaciones de normas inversas; Lema de Kellog; teorema de Horn y Johnson; ejercicios). 1.7. Problemas al capítulo 1 i Capítulo 2. Problemas de algebra lineal 2.1. Tipos de problemas computacionales (sistema de ecuaciones lineales algebraicas Ax b ; sistema AX B donde A, X y B son matrices; búsqueda de la matriz inversa; cálculo de determinantes; problema espectral Ax x para una matriz simétrica o hermitiana A ; problema espectral generalizado Ax Cx para una matriz simétrica A y una matriz simétrica y positiva definida C ; problemas relacionados con desigualdades lineales Ax b ; matriz dispersa; matriz densa; matriz generador; matriz almacenada; matriz de banda; ejercicios). 2.2. Fuentes de problemas computacionales (aproximación de un problema continuo funcional por un problema discreto; problemas de interpolación; solución de los problemas lineales por el método de los mínimos cuadrados; búsqueda de la matriz inversa; resolución de un sistema de ecuaciones diferenciales ordinarias homogéneas lineales con coeficientes constantes; ejercicios). 2.3. Número de condición de una matriz (inestabilidad de la solución de un sistema mal condicionado; ejemplo de Kahan; estimación de los errores relativos; número de condición de una matriz cuadrada; matrices bien y mal condicionadas; matriz de Hilbert; equivalencia de los números de condición calculados usando diferentes normas; ejercicios). 2.4. Estimación del número de condición (número de condición de una matriz tridiagonal; número de condición de una matriz simétrica; el determinante de una matriz y su número de condición; estimaciones del número de condición desde abajo y desde arriba; números singulares de una matriz; simetrizaciòn de un sistema de ecuaciones; ejercicios). 2.5. Método de las potencias (problema espectral particular; idea del método iterativo; descripción del algoritmo; proceso de deflación; ejemplos; cálculo de los límites espectrales de una matriz simétrica; un problema de resonancia; ejercicios). 2.6. Estimación de eigenvalores (desigualdad de Wielandt-Hoffman; teorema de Wielandt-Hoffman; perturbación infinitesimal de la celda de Jordan; criterio de Gershgorin; ejemplos; teorema de Schur; estimaciones de Hirsch; estimación de autovalores de una matriz tridiagonal hermitiana; ejercicios). 2.7. Problemas al capítulo 2 Capítulo 3. Métodos directos para sistemas lineales 3.1. Factorización LU (regla de Cramer; esquema de solución de un sistema lineal con la matriz factorizada; matriz estrictamente regular; matriz unitriangular, superior o inferior; teorema LU sobre la existencia y unicidad de factorización; tres métodos para calcular la matriz inversa; Criterio de Sylvester; factorización de Cholesky; factorización de una matriz estrictamente regular y simétrica; ejercicios). 3.2. Eliminación de Gauss (demostración del método para un sistema de orden cuatro; algoritmo en el caso general; estimación del número de operaciones aritméticas; la relación entre la eliminación de Gauss y la factorización LU; matriz permutación y cambio de filas de la matriz A ; factorización PA LU ; algoritmo de factorización de Cholesky; ejercicios). ii 3.3. Factorización QR por medio de la ortogonalización de Gram-Schmidt (solución de un sistema lineal con la matriz factorizada; existencia y unicidad de la factorización QR; factorización de una matriz rectangular; factorización por medio de la ortogonalización de Gram-Schmidt; dos ejemplos de factorización; ejercicios). 3.4. Factorización QR por medio de transformaciones de Givens (matriz de rotación del plano; matrices ortogonales de Givens; factorización por medio de rotaciones de Givens; estimación del número de operaciones aritméticas; ejercicios). 3.5. Factorización QR por medio de transformaciones de Householder (transformación de Hausholder; factorización por medio de trancformaciones de Householder; estimación del número de operaciones aritméticas; esquema de reducción de Householder; ejercicios). 3.6. Método de Thomas (ecuaciones tripuntuales con condiciones de Dirichlet, Neumann y mixtas; algoritmo de Thomas; condiciones de estabilidad; análisis de estabilidad; ejercicios). 3.7. Método de disparo (descripción del algoritmo para un problema no lineal; descripción del algoritmo para un problema lineal; dos ejemplos que muestran la inestabilidad del método; ejercicios). 3.8. Método de Thomas en el caso de condiciones periódicas (fórmula de Sherman-Morrison; aplicación de la fórmula de Sherman-Morrison y del método de Thomas; ejercicios). 3.9. Método de cuadrados mínimos (rango de una matriz rectangular; espacios row( A) y col( A) generados por combinaciones lineales de las filas y columnas; relación entre ker( A) y row( A) para una matriz rectangular; proyector ortogonal sobre el subespacio col( A) ; solución por el método de cuadrados mínimos; aplicación de transformaciones de Householder para resolver el problema de cuadrados mínimos; ejercicios). 3.10. Problemas al capítulo 3 Capítulo 4. Métodos iterativos para sistemas lineales 4.1. Convergencia de las iteraciones (forma canónica de iteraciones sucesivas; condición suficiente para la convergencia de iteraciones; estimación del error de las iteraciones; criterio de convergencia; ejemplo de convergencia de las iteraciones simples; ejercicios). 4.2. Método de Jacobi (condición necesaria para la aplicación del método; fórmula de iteraciones para las componentes del vector; la convergencia del método para una matriz con diagonal principal dominante; estimación del número de iteraciones; matriz irreducible; teorema de convergencia para una matriz irreducible y débilmente dominante; ejercicios). 4.3. Método de Gauss-Seidel (condición necesaria para la aplicación del método; fórmula de iteraciones para las componentes del vector; la convergencia del método para una matriz estrictamente diagonal dominante; el criterio de Sassenfeld de la convergencia de iteraciones; la convergencia de iteraciones para una matriz simétrica y definida positiva; teorema de Householder-John; teorema de Stein-Rosenberg; ejercicios). 4.4. Métodos de relajación (método de Jacobi con relajación; parámetro de relajación óptimo para una matriz especial del método de Jacobi con relajación; método de Gauss-Seidel con relajación; teorema de iii Kahan sobre la divergencia del método fuera del intervalo 0 2 ; teorema de Ostrowski; matriz coherentamente ordenada; teorema de Young; ejercicios). 4.5. Métodos de minimización (forma canónica de procesos iterativos basados en los métodos de minimización; convergencia monótona de las iteraciones; método de descenso más pronunciado; método simple; A-ortogonalización; método de gradientes conjugados y su convergencia; ejercicios). 4.6. Algoritmos LR y QR (cálculo de los eigenvalores de una matriz no singular; algoritmo iterativo LR; teorema de Rutishauser; algoritmo iterativo QR; matriz de Hessenberg; algoritmos LR y QR para una matriz simétrica; ejercicios). 4.7. Problemas al capítulo 4 5. Eficiencia de los cálculos 5.1. Importancia de la estabilidad de los cálculos (estabilidad numérica; diferentes tipos de estabilidad; ejemplos de algoritmos inestables; ejercicios). 5.2. Estabilidad de la solución de un problema (problema Cauchy para la ecuación de transporte unidimensional; aproximación del problema continuo; estabilidad de un algoritmo numérico; convergencia de la solución numérica a la solución del problema continuo; teorema de Lax; interpretación geométrica de la relación entre la condición de Courant y la convergencia del esquema explícito de Godunov; comparación de la estabilidad de un problema continuo y un problema discreto; ejercicios). 5.3. Piense bien! (eficiencia de cálculos; esquema de Horner; ejemplos de algoritmos eficientes para encontrar las sumas de series numéricas, infinitas y finitas; ejercicios). 5.4. Importancia de métodos geométricos (demostraciones sin palabras: teorema de Pitágoras; suma de una progresión geométrica; suma de cualquier progresión geométrica; desigualdad de las medias aritmética y geométrica; fórmulas de la tangente del ángulo mitad; distancia entre un punto y una línea; fórmulas de doble ángulo; teorema de Napoleón). Referencias Indice Analítico Signos convencionales iv Conceptos preliminares En esta sección serán desarrolladas algunas de las herramientas básicas y las relaciones que serán utilizados en varias ocasiones en los capítulos siguientes. 1. Conjuntos. Un conjunto es una colección de cosas que se llaman elementos. Para indicar que a es un elemento de un conjunto A es habitual escribir que a A . Por ejemplo, sea S {1, 2,3, 4,5} un conjunto compuesto por los elementos 1,2,3,4 y 5. Entonces, 4 S . O bien, el símbolo [a, b) , donde a y b son números reales, denota el conjunto de números reales x tales que a x b . Este tipo de conjuntos de números reales se denominan intervalos. A veces una regla especifica un conjunto. Por ejemplo, sea Ζ el conjunto de todos los números enteros. Entonces S {x Ζ : x 1} podría ser especificado como el conjunto de números naturales. Si cada elemento de A es un elemento de B , entonces A es un subconjunto de B , en símbolos, A B . La misma afirmación acerca de estos conjuntos también se puede escribir como B A . Por ejemplo, {1,2,3,4,5} {2,3,4,5}. La unión A B de dos conjuntos A y B es el conjunto formado por todos los elementos de ambos conjuntos, es decir A B {x : x A o x B} Por ejemplo, {1,2,3,4,5,8} {2,3,4,5,7} {1,2,3,4,5,7,8} . O bien, si ( x 5)(3x 9) 0 entonces la solución es x 5 o x 3 . En cuanto a la notación de conjuntos esto se denota por (, 5] [3, ) . 1 La intersección A B de dos conjuntos A y B es el conjunto formado por todos los elementos comunes de los dos conjuntos, es decir, A B {x : x A y x B} Por ejemplo, {1,2,3,4,5,8} {2,3,4,5,7} {2,3,4,5} . O bien, si ( x 3)( x 5) 0 entonces la solución es x 5 y x 3 . En cuanto a la notación de conjuntos esto se denota por [5, ) (,3] [5,3] . Un conjunto especial es el conjunto vacío que se denota por 0 y se define como el conjunto que no tiene elementos que lo integran. Los matemáticos les gusta decir que el conjunto vacío es un subconjunto de cada conjunto A , es decir, 0 A . Si A y B son dos conjuntos, A \ B denota el conjunto de los elementos que están en A , pero no en B . Por lo tanto A \ B {x A : x B} Por ejemplo, si A {1, 2,3, 4,5,8,9} and B {2,3,4,5,8} entonces A \ B {1,9} . 2. Funciones. El concepto de una función es la de algo que da una salida única para una entrada dada. Consideramos dos conjuntos, D y R junto con una regla f que asigna un único elemento f ( x) de R para cada elemento x D . Esta regla f se llama función. Es común escribir la notación f : D R . El conjunto D se denomina el dominio de f (la notación D( f ) también puede ser usado). El conjunto R es llamado a veces el codominio de f . Un subconjunto de todos los elementos de R que son de la forma f ( x) para algún x D se denomina la imagen de f . Cuando la imagen es igual a R la función f se dice que es sobreyectiva: 2 Fig.1. Función sobreyectiva. Otro ejemplo de una función sobreyectiva es sen x : [0,2 ] [1,1] : Fig.2. Función sobreyectiva sen x . Si siempre que x y se sigue f ( x) f ( y) , la función se llama inyectiva: Fig.3. Función inyectiva. 3 Otros ejemplos de funciones inyectivas si D (, ) son f ( x) x 5 , f ( x) 2x 3 and f ( x) x3 A diferencia de ellos, la función f ( x) x 2 no es inyectiva si D (, ) , porque (por ejemplo) f (1) 1 f (1) . Sea f : D R una función. El gráfico de la función consiste del conjunto {( x, y) : y f ( x) para x D Nota que el conocimiento de la gráfica de una función es equivalente a conocimiento de la función. 3. Números complejos. Así como un número real debe ser considerado como un punto de la línea, un número complejo se considera como un punto en el plano. Por lo tanto (a, b) identifica un punto cuya coordenada x es a y cuya coordenada y es b . Al tratar con los números complejos, tal punto se escribe como z a ib donde i 1 es la unidad imaginaria. Multiplicación y suma se definen de la manera más obvia: (a ib) (c id ) (a c) i(b d ) y (a ib)(c id ) (ac bd ) i(bc ad ) Cada número complejo distinto de cero tiene un inverso multiplicativo único: z 1 1 a ib a b 2 2 i 2 2 2 a ib a b a b a b2 Las siguientes propiedades se cumplen para números complejos x, y and z : 1. z x x z (ley conmutativa para la adición) 2. z 0 z (identidad aditiva) 3. z (z) 0 4 4. ( x y) z x ( y z) (ley asociativa para la adición) 5. zx xz (ley conmutativa para la multiplicación) 6. ( xy) z x( yz) (ley asociativa para la multiplicación) 7. 1 z z (identidad multiplicativa) 8. Para cada z 0 existe z 1 tal que zz 1 1 (existencia del inverso multiplicativo) 9. x( y z) xy xz (ley distributiva). Una construcción importante con respecto a los números complejos es el complejo conjugado denotado por una línea horizontal por encima del número. Se define como sigue: z a ib a ib Es fácil demostrar que zz (a ib)(a ib) (a ib)(a ib) a 2 b 2 A menudo, los números complejos se escriben en la forma polar: z a ib r (cos i sin ) rei Fig.4. Complex number. 5 donde r z a 2 b 2 and el ángulo [0, 2 ) se define por cos a a 2 b2 , sen b a 2 b2 Usando la inducción matemática es fácil demostrar que z n r n ein r n (cos n i sin n ) El valor absoluto (o modulo) de un número complejo se define como sigue: z rei r a ib a 2 b 2 ( zz )1/2 Se deduce de la definición que si z a ib z ei and x c id x ei entonces zx z x ei ( ) z x , zx z x , z x zx y la distancia entre los dos números se define por z x (a c)2 (b d ) 2 . 4. Los errores de redondeo y la aritmética computacional. La aritmética realizada por una calculadora o computadora es diferente de la aritmética en cursos de álgebra y cálculo. Es probable que se puede esperar que siempre tenemos como instrucciones verdaderas cosas tales como 5 6 30 and 2 2 2 . Sin embargo, con la aritmética de ordenador no vamos a tener con precisión dichos resultados. Para entender por qué esto es cierto hay que explorar el mundo de la aritmética de precisión finita. Aritmética de precisión finita significa que los cálculos se hacen con un número constante de dígitos. Por ejemplo, sin embargo, 3 1.732050 usando aritmética de corte a 6 dígitos, 3 1.732051 usando aritmética de redondeo a seis dígitos. Observe que el 6 resultado exacto que se obtiene en ambos casos es una aproximación al valor 3 1.732050807568877... que tiene el número infinito de dígitos. A continuación se define el error absoluto y el error relativo. Si x es una aproximación de x entonces el error absoluto es ea x x er y el error relativo es xx , x 0 . Consideremos tres ejemplos: x 1. x 105 , x 102 , ea 3 , er 0.02857142857 2. x 1.05 , x 1.02 , ea 0.03 , er 0.02857142857 3. x 0.0105 , x 0.0102 , ea 0.0003 , er 0.02857142857 Observe que el error relativo es el mismo en los tres casos, pero el error absoluto es distinto en cada caso. Es aconsejable como una medida de precisión trabajar con el error relativo ya que el error absoluto puede ser engañoso. Ejemplo (Faires y Burden, 2010). La fórmula cuadrática establece que las raíces de ax2 bx c 0 cuando a 0 son x1 b b2 4ac 2a y x2 b b2 4ac 2a En el caso cuando a c 1 y b 62.1 las raíces son aproxidamente x1 0.01610723 y x2 62.08390 . En las calculaciones para determinar las raíces vamos a usar la aritmética de redondeo a cuatro dígitos. Notemos que en esta ecuación, b2 es mucho mayor que 4ac , por lo que el numerador en el cálculo para x1 implica la sustracción de números casi iguales. Ya que b2 4ac (62.10)2 (4.000)(1.000)(1.000) 3852. 62.06 7 obtenemos x1 62.10 62.06 0.04000 0.02000 2.000 2.000 Lo que representa una aproximación pobre a x1 0.0161 con el error relativo grande er 0.01610 0.02000 2.4 101 . 0.01610 Por otro lado, el cálculo de la raíz x2 no presenta ningún problema. Con el fin de obtener una aproximación más precisa para la raíz x1 , cambiamos la forma de la fórmula cuadrática racionalizando el numerador: x1 b b2 4ac b b2 4ac 2c 2 2a b b 4ac b b2 4ac Por lo tanto, x1 2c b b 4ac 2 2.000 2.000 0.01610 62.10 62.06 124.2 Ya tiene el error relativo pequeño: er 6.2 104 . 8 Capítulo 1. Elementos básicos de análisis matricial En la práctica, en la mayoría de los casos no se logra hallar una solución exacta del problema matemático planteado. Esto ocurre principalmente porque la solución no se expresa en funciones elementales o en otras funciones conocidas. Por eso adquirieron gran importancia los métodos numéricos que reducen el procedimiento de la solución de un problema a operaciones aritméticas y lógicas sobre los números, que pueden ser realizadas por una computadora. Según el grado de complejidad del problema, la exactitud establecida, el método aplicado, etc., puede ser necesario cumplir desde varias decenas hasta muchos miles de millones de operaciones. El álgebra lineal está en todas partes en simulaciones numéricas, siempre crucial en términos de eficiencia y rendimiento. Casi todos los cálculos numéricos en la física, mecánica, ingeniería, química, economía, finanzas, etc., implican el álgebra lineal numérica, es decir, operaciones que implican matrices. Un conocimiento profundo de las partes más fundamentales del álgebra lineal es un requisito esencial para cualquier persona en cualquier trabajo técnico en estos días con el fin de llevar a cabo tareas de trabajo en un nivel adecuado. En esta era de Internet con ordenadores que juega un papel vital y creciente en cada puesto de trabajo, el uso más eficaz de los equipos requiere una sólida formación al menos en las partes básicas de álgebra lineal. Para resolver un problema, hay que ejecutar un conjunto finito de instrucciones o pasos que forman un algoritmo numérico. De un modo más formal, un algoritmo es una secuencia finita de operaciones realizables, no ambiguas, cuya ejecución da una solución de un problema en un tiempo finito. Es preciso notar que los objetos principales de los algoritmos numéricos son los números, vectores y matrices. Por lo tanto, en este capítulo introducimos los conceptos básicos relacionados con 9 los vectores y matrices: los espacios de vectores y matrices, el producto escalar, el número de condición de una matriz, las normas vectoriales y matriciales, la equivalencia de normas, etc. También se introduce el problema espectral y los eigenvalores y eigenvectores de una matriz. El capítulo se termina con la sección 1.7 que contiene varios ejercicios. Hasta cierto punto, el libro puede ser visto como un curso extendido de conferencias. Esto explica la brevedad y la concisión que son inherentes a las conferencias de duración limitada. Para un estudio más profundo de la teoría de matrices se recomiendan los libros de: Faddeev y Faddeeva (1963), Wilkinson (1965), Gantmacher (1966), Lancaster (1969), Parlett (1980), Voevodin y Kuznetzov (1984), Ortega (1987), Rutishauser (1990), Winter (1992), Jacob (1995), Bhatia (1997), Horn y Johnson (1999), Meyer (2000), Higham (2002), etcétera. 1.1. Introducción En proceso de modelación de un fenómeno natural siempre hay diferencia entre un problema (modelo) matemático y dicho fenómeno. Además, la solución obtenida por un método numérico es aproximada, es decir, hay cierta diferencia no nula entre la solución exacta y la solución numérica. Las causas principales de la diferencia son las siguientes: 1. errores en los datos iniciales (parámetros de entrada); 2. errores de un método numérico usado para resolver el problema; 3. errores de redondeo en las operaciones aritméticas. Los errores de redondeo son inevitables y se producen cuando se usan números que tienen un número finito de cifras significativas para representar números exactos. Su nivel depende de la precisión de cada computadora. Los errores de redondeo se analizan con detalle en Taylor (1982) (véase también 10 Chapra y Canale (2002)). Para los errores de los tipos 1 y 3, la relación entre el resultado exacto re y el aproximado ra está dado por re ra , donde es un error, llamado error absoluto. Una manera de tomar en cuenta las magnitudes de las cantidades que se evalúan consiste en normalizar el error absoluto respecto al valor exacto ( rel / re ), o el aproximado ( rel / ra ). Se llama el error relativo. Este error se puede multiplicar por 100% para expresarlo como el error relativo porcentual p ( / re )100% . Sin embargo, los primeros dos tipos de errores a menudo son mas grandes que los errores de redondeo. El análisis de los errores de un método numérico es uno de los objetivos principales del libro. Cada método numérico se puede expresar como una cadena de varios algoritmos Ai ( i 1,2,..., N ): Entrada Salida A1 A2 A3 ... AN DATOS INICIALES SOLUCIONNUMERICA (1.1.1) En este libro, consideraremos los siguientes problemas estándares: sistemas de ecuaciones lineales, problemas de cuadrados mínimos, problemas espectrales (de eigenvalores y eigenvectores), problemas de valores singulares. A pesar de que el libro está dedicado sólo a los métodos de solución de problemas de algebra lineal, es útil mencionar aquí los tres conceptos principales relacionados con la simulación numérica, con modelos y algoritmos numéricos: 1. La aproximación. La proximidad de un modelo numérico al modelo original (diferencial, integral, etcétera), o el grado de aproximación, caracteriza el error que se introduce al hacer discreto el modelo continuo. El grado de aproximación n se estima mediante un factor que tiene el error entre dos modelos. Este factor tiene la forma h n en el método de diferencias finitas donde h es el tamaño 11 de la malla, o N n en un método de proyección (método de colocación, método de Rayleigh-Ritz, método de Galërkin, método espectral, método de elementos finitos) donde N es el número de truncación (número de términos) de las series de Fourier. Así, el grado de aproximación caracteriza la rapidez de reducción del error entre los dos modelos cuando el tamaño de malla h tiende al cero, o el número de truncación N tiende al infinito. 2. La estabilidad. Es una característica muy importante de la calidad de cada método. La estabilidad caracteriza la manera de propagación de los errores iniciales durante los cálculos en el algoritmo (1.1.1). Si el incremento de los errores iniciales es considerable y sin ningún control, entonces el método numérico se llama inestable. Al contrario, si los errores en los cálculos dependen continuamente de los errores iniciales (es decir, se reducen a cero cuando los errores iniciales tienden a cero), entonces el método se llama estable. 3. La convergencia. La convergencia significa que la solución numérica converge hacia la solución exacta cuando el tamaño de la malla h tiende a cero, o el número de truncación N tiende al infinito. Demostramos ahora que la calidad de cálculos (la proximidad de la solución aproximada [numérica] a la solución exacta) está directamente relacionada con dos conceptos principales: la aproximación del problema y la estabilidad del método. Ejemplo 1.1.1. La importancia de la aproximación la mostraremos con el problema d u (t ) a u (t ), u (0) 1, a 0 dt Su solución exacta u (t ) exp at es positivo para toda t, y en particular, en los puntos t n n de una malla ( n 0,1,2,... ). Ahora hallamos una solución numérica del problema. Sean u (tn ) y un los 12 valores en el punto t n n de la solución exacta y de la solución numérica, respectivamente. Aproximemos el problema continuo por el problema discreto un1 un a un , u0 0 Así pues, un1 (1 a) un . Es fácil demostrar que el error de aproximación en la primera derivada depende del tamaño de la malla . En efecto, si la malla es bastante fina ( 1 / a ) entonces la solución numérica un es positiva para toda n, igual que la solución exacta. Sin embargo, si 1 / a entonces los valores positivos y negativos de un alternan, y la solución numérica un es lejos de la solución exacta u (tn ) . ■ Ejemplo 1.1.2. Mostramos ahora la importancia de la estabilidad de los cálculos. Supongamos que la integral 1 xn un dx x5 0 (1.1.2) hay que calcular para cada n (n=0,1,2,3,….). Es fácil notar que para toda n, un 0 y un 1 un . Para simplificar los cálculos se puede usar la fórmula recurrente un 5un 1 1 n (1.1.3) En efecto, 1 un 5un1 0 1 Usando el valor inicial u0 0 xn1 ( x 5) 1 dx x n1dx x5 n 0 1 1 1 dx ln( x 5)0 0.182 y la fórmula recurrente (1.1.3) x5 obtenemos 13 u1 1 5u0 0.090 , u2 1 5u1 0.050 , 2 1 1 u3 5u2 0.083 , u4 5u3 0.165 . 3 4 Notemos que el resultado numérico u3 u2 contradice al resultado exacto u3 u2 , además el valor negativo u4 ya representa un absurdo. La causa del absurdo es la inestabilidad del algoritmo (1.1.3) con respecto a los errores de redondeo. En efecto, según la fórmula (1.1.3), un pequeño error inicial 0 crece con el factor -5: 1 5 0 ; 2 25 0 ; 3 625 0 , etcétera. Después de unos k pasos, el error k (5) k 0 superará el valor de la solución exacta. ■ Ejercicios: 1. Verifique las siguientes fórmulas de sumar n k 12 n(n 1) k 1 2. Verifique la fórmula 2k 1 k 1 3. Demuestre que 2 k 2 2k 2 2 8 n y k k 1 2 16 n(n 1)(2n 1) . 1 2 dx y, por lo tanto, 2 x (2k 1) 2 2 (2k 1) k m 2 1 . 4m 4. Sea y ( x ) 1 ( x ), 2 ( x ), ..., n ( x ) una función, donde x x1 , x2 , ..., xn , y y1 , y2 , ..., yn . Demuestre que errores pequeños x causan errores y D ( x) x donde D ( x ) i ( x ) x j es la matriz (Jacobiano) que representa la sensibilidad de y a variaciones pequeñas en x . 5. Evalúe las siguientes expresiones de una manera numericamente estable: 1 cos x a) para x 0 , x 1 ; x 14 b) 1 1 x 1 2x 1 x c) x x 1 x x 1 para x 1 ; para x 1 . 6. Sea a1 ,..., an un conjunto de observaciones, y a 2 1 n a j . Cual de las fórmulas n j 1 1 n 1 n 2 a j na 2 y 2 a j a 2 n 1 j 1 n 1 j 1 es numericamente más exacta? N 7. Es bien conocido que si S N uk y uk f (k ) f (k 1) para una función f (k ) entonces k 1 S N f (n) f (0) . Usando la última fórmula demuestre que: N 1 1 N [Indirecta: f (k ) ]; k 1 N 1 k 1 k (k 1) N 1 3 1 1 1 b) S N [Indirecta: uk f (k 1) f (k 1) ; 4 2 N 2 N 1 k 1 k (k 2) 1 f (k ) ]; 2(k 1) N 1 c) S N k 2 N ( N 1)(2 N 1) [Indirecta: uk 16 f (k ) f (k 1) ; 6 k 1 f (k ) k (k 1)(2k 1) ]; a) S N N d) S N k k k 1 k 1 N 3 2 [Indirecta: uk 15 1 4 f (k ) f (k 1) ; f (k ) k (k 1) ]. 2 1.2. Espacios lineales y vectores Desde hace mucho tiempo, algebra lineal y la teoría de matrices han servido como herramientas básicas en varias disciplinas matemáticas. Y el análisis numérico no es una excepción. En el presente libro introducimos y usaremos sólo definiciones y propiedades principales de los vectores y matrices necesarias para nuestros objetivos. Para profundizar sus conocimientos, les recomiendan a los lectores varios libros clásicos reconocidos como Wilkinson (1963), Gantmacher (1966), Lancaster (1969), Horn y Johnson (1999), Jacob (1995), etcétera. Introducimos axiomáticamente el concepto de un espacio lineal. Un espacio lineal es una colección de objetos matemáticos (o físicos) para los cuales están definidas dos operaciones: adición y multiplicación por todos números reales o complejos; estos operaciones satisfacen las condiciones siguientes (axiomas): 1. X Y Y X (ley conmutativa); 2. X (Y Z ) ( X Y ) Z (ley asociativa); 3. ( X Y ) X Y , 4. Existe un elemento “0” tal que X 0 X ; 5. Para todos X existe un elemento negativo X tal que X ( X ) 0 ; 6. 1 X X ; 7. ( X ) X . ( ) X X X (leyes distributivas); Los elementos de un espacio lineal se llaman vectores. De los axiomas mencionados arriba se deduce la unicidad del elemento cero “0”, la unicidad del elemento negativo X , y las igualdades 0 X 0 0 , ( X ) (1) X . 16 Un espacio se llama de dimensión finita si existe un número finito de vectores x1 , x2 ,..., xn tal que cada vector en el espacio se puede representar en la forma c1 x1 c2 x2 ... cn xn Denotaremos como R n y C n espacios vectoriales de dimensión n sobre el campo de los números reales y complejos, respectivamente. Normalmente, R n se llama espacio euclidiano y C n espacio unitario. Denotamos por x1 x x 2 y xn x T ( x1 , x2 ,..., xn ) vector columna x y su traspuesta (vector fila) xT . Toso vector x con las componentes xi i 1 se n caracteriza por su magnitud (o módulo) x y su dirección. Sean x ( x1 , x2 , x1 x2 xn 2 2 , xn )T y y ( y1 , y2 , 2 (1.2.1) , yn )T dos vectores columnas. La suma de vectores y las multiplicaciones de vectores por números reales (o complejos) y se definen como x y ( x1 y1 , x2 y2 , , xn yn )T (1.2.2) Según los axiomas 1-3 del espacio lineal, xy yx x ( y z ) ( x y) z ( x y) x y , ( ) x x x Existe un elemento cero (axioma 4) y un elemento negativo (axioma 5). 17 (1.2.3) (1.2.4) (1.2.5) Introducimos en el espacio vectorial otra operación muy importante y útil. Definición 1.2.1. El producto escalar de dos vectores de C n se define como n x , y y x xi yi (1.2.6) i 1 donde y ( y 1 , y 2 , , y n ) T es el vector adjunto (traspuesto y complejo conjugado) de y ( y1 , y2 ,, yn ) . ■ En el caso del espacio euclidiano R n , (1.2.6) se reduce a n x , y y T x xi yi i 1 En particular, x, x x 2 (1.2.7) El producto escalar (1.2.6) posee las siguientes propiedades (Lancaster, 1969): (1) x , x 0 , además, x , x 0 si y solo si x 0; (2) x , y x , y ; (3) x y, z x , z y, z ; (4) x , y y, x . Definición 1.2.2. Los vectores xi i 1 se llaman linealmente independientes si de la ecuación n n i 1 i xi 0 (1.2.8) se deduce que i 0 para toda i. Si en (1.2.8) por lo menos una constante i es no nulo, entonces dichos vectores se llaman linealmente dependientes. Los vectores linealmente independientes x1 , x2 ,, xn forman la base del espacio de dimensión n. ■ 18 x1 i 2 ( i / 1 ) xi , es decir, el vector x1 se expresa n Por ejemplo, si 1 0 entonces como una combinación lineal de los restantes vectores. Un sistema de vectores x1 , x2 ,, xn es linealmente dependiente si y sólo si x1 , x1 x ,x det G det 2 1 xn , x1 x1 , x2 x2 , x2 xn , x2 x1 , xn x2 , xn 0 xn , xn (1.2.9) donde det G es el determinante de la matriz de Gram G , formada por los productos escalares de los vectores x1 , x2 ,, xn . ■ Definición 1.2.3. Vectores x y y se llaman ortogonales si x, y 0 En este caso, usamos la notación x y . ■ Es una generalización del concepto de la ortogonalidad en el espacio euclidiano R n al espacio unitario C n . En efecto, si todas las componentes de ambos vectores son números reales, entonces (1.2.8) implica x , y x y cos 0 es decir, el ángulo entre dos vectores es recto: =90. A pesar de que el concepto de ángulo no se introduce en el espacio unitario, la ortogonalidad de dos vectores también desempeña un papel importante en este espacio. Vectores ortogonales x1 , x2 ,, xn siempre son linealmente independientes, ya que su matriz 19 de Gram (1.2.9) es diagonal y det G 0 . Para ortogonalizar un sistema de vectores linealmente m independientes ui i1 se usa el proceso de Gram-Schmidt. ui im1 Ortogonalización de Gram-Schmidt. Sea un conjunto de vectores linealmente independientes. Describiremos ahora un proceso que permite transformar este conjunto en un sistema ortogonal vi i 1 cuando m vi , v j 0 si i j . k Ponemos primero v1 u1 . Suponiendo que el sistema ortogonal vi i 1 ya está construido, el siguiente vector ortogonal vk 1 se busca de la forma k vk 1 uk 1 akivi (1.2.10) i 1 k En virtud de que los vectores vi i1 son ortogonales, obtenemos que aki uk 1 , vi u ,v k 1 2 i vi , vi vi Los espacios generados por los dos sistemas ( i 1,2,..., k ) ui im1 y vi im1 son iguales. El nuevo sistema vi im1 se llama la ortogonalización de la base ui im1 . A menudo, es conveniente normalizar vi a un vector unitario ei vi / vi inmediatamente después de calcularlo. En este caso, ei 1 , aki uk 1 , ei 1, si i j 0 , si i j ij es la delta de Kronecker. 20 y vi , v j ij donde Desigualdad de Schwarz. Demostramos ahora que dos vectores arbitrarios x , y en un espacio euclidiano o unitario siempre satisfacen la desigualdad de Schwarz (Cauchy-BuniakowskySchwarz): x, y x y (1.2.11) Demostración. Sea a y , x , b x , x , z ax by . Entonces, hay que demostrar la 2 desigualdad a b y , y . Tenemos 0 z , z ax by, ax by a ax by,x b ax by, y aa x , x ba y , x ab x , y bb y , y De aquí, usando las definiciones de a y b, y la igualdad b b , obtenemos que los primeros 2 dos términos de la última suma se cancelan, y los dos restantes nos dan 0 b(b y , y a ) . Si b=0, 2 entonces x 0 , y (1.2.11) se cumple evidentemente. Pues, si b 0, entonces a b y , y . ■ Ejemplo 1.2.1. En el espacio euclidiano R n , los vectores e1 (1,0,,0) , e2 (0,1,,0) ,…, en (0,0,,1) son linealmente independientes y representan un sistema básico ortonormal: ei , e j ij . En este caso, todo vector x se representa como n x xi ei , i 1 donde xi x , ei son sus componentes relacionadas con la base ortonormal en R n . Entonces n n x xi ei ~ xi ui i 1 i 1 21 e i n i 1 . Sea ui in1 otra base n xi x ,ui son sus componentes relacionadas con la base ui i1 . Así pues, las componentes donde ~ de un vector dependen de la base. ■ Definición 1.2.4. Sea U un subespacio de R n . El complemento ortogonal de U en R n es el subespacio U x R n : x , y 0 y U . Es fácil demostrar que U U 0 , y cualquier vector u Rn se puede expresar de una manera única como u v w , donde v U y w U . El vector v U (o vector w U ) se llama la proyección ortogonal del vector u Rn en U ( U ). La matriz P se llama operador de la proyección ortogonal en U si Pu v para todos los vectores u Rn . La matriz E P es el operador de la proyección ortogonal en U . ■ En la mayoría de los casos, para medir la magnitud de un vector x , se usa el valor absoluto x . Es un ejemplo de la norma vectorial. Introducimos ahora otras normas vectoriales útiles. Definición 1.2.5. Una función de vectores se denomina norma vectorial si para cualesquiera vectores x y y del R n o C n se satisfacen los siguientes axiomas: 1. x 0 ; 2. x 0 3. ax a x x 0; para cualquier número complejo a; 4. x y x y (desigualdad triangular). ■ Consideremos una familia importante de las normas. Definición 1.2.6. Sea p 1 . Las normas de Hölder, o las p-normas, se definen por x p n p xi i 1 En particular, obtenemos la 1-norma 22 1Ip .■ (1.2.12) n x 1 xi (1.2.13) i 1 para p 1 , la 2-norma (o norma euclidiana) n 2 x 2 xi i 1 1I 2 x, x 1I 2 1I 2 x x (1.2.14) para p 2 , y la -norma x max xi (1.2.15) 1i n para p . Una de las diferencias entre las normas (1.2.13)-(1.2.15) es su dependencia de la dimensión n. Por ejemplo, sea x (1,1, ,1) . Entonces x 1 , mientras que x2 n y x 1 n van a crecer junto con n . Desigualdad de Hölder. Para cualesquiera dos vectores x , y se cumple la desigualdad xy x p y q , donde p 1, q 1 y 1 1 1. ■ p q (1.2.16) Observación 1.2.1. En particular, cuando p=q=2, la desigualdad (1.2.16) coincide con la de Schwarz (1.2.11). Debemos decir, que entre todos los espacios definidos por las normas de Hölder (1.2.12), sólo el espacio euclidiano (p=q=2) posee el producto escalar. Otra ventaja principal del espacio euclidiano consiste en que sólo la norma euclidiana (2-norma) es invariable bajo cualquier transformación unitaria (por ejemplo, una rotación). En efecto, si Q es una matriz unitaria (u ortogonal), entonces 23 Qx 2 2 Qx , Qx Qx Qx x (Q Q) x x x x 2 2 (1.2.17) ya que Q Q E , donde E es la matriz identidad. ■ Es fácil introducir una métrica (distancia entre dos vectores x , y ) en C n mediante una norma: ( x , y) x y (1.2.18) El ejemplo 1.2.2 muestra que cada métrica introduce su propia topología en el espacio vectorial. Ejemplo 1.2.2 (Ortega y Poole, 1981). Consideremos en el espacio bidimensional real las métricas definidas mediante las normas (1.2.13)-(1.2.15): 2 1( x, y) x y 1 xi yi (1.2.19) i 1 1I 2 2 2 2( x, y) x y 2 xi yi i 1 (1.2.20) ( x, y) x y (1.2.21) y max xi yi 1i 2 Las “bolas” (o “esferas”) i ( x ,0) 1 definidas por las métricas (1.2.19)-(1.2.21) se representan en la Figura 1.2.1. ■ 24 Fig. 1.2.1. Esferas unitarias definidas por métricas (1.2.19) ( (1.2.20) (—) y (1.2.21) (----). Definición 1.2.7. Dos normas p y q ), se llaman equivalentes en un espacio vectorial si existen dos constantes universales positivas M y K tales que M x p x q K x p (1.2.22) para cualquier vector x . ■ Las desigualdades (1.2.22) son importantes en varias estimaciones de los vectores. Por ejemplo, si una sucesión de vectores converge en la p-norma: xn x p 0 , entonces, según la desigualdad derecha (1.2.22), dicha sucesión también converge en la q-norma: xn x q 0 . Teorema 1.2.1. En un espacio C n (o R n ) de dimensión finita, todas las normas son equivalentes. Demostración. Sea u1 , u2 ,..., un una base en C n . Entonces todo vector x C n se puede expresar como 25 n x ai ui i 1 Según (1.2.15), x max ai (1.2.23) 1 i n es la norma en C n . Sea cualquier otra norma en C n . Usando los axiomas 3 y 4 de la norma, obtenemos la parte derecha de (1.2.22): n x ai ui K x i 1 (1.2.24) para cualquier x C n , donde n K ui . i 1 Supongamos ahora lo contrario, es decir, no existe ninguna constante M, tal que M x x para todo x C n . Sea k un número natural, y M 1 / k . Entonces existe un vector xk tal que 1 xk xk . Introduciendo vk xk / xk obtenemos vk k . De esta manera, se puede hallar una k sucesión vk con vk 1 , tal que vk k . Consideremos la sucesión wk con wk vk / vk y escribimos n wk aik ui i 1 Como wk 1 , la sucesión numérica aik está acotada para cada i 1,2,..., n . Por lo tanto, según el teorema de Bolzano-Weierstrass, se puede escoger de la sucesión aik una subsucesión aik (m ) que 26 converge hacia un número ai . Así pues, para cada i, aik ai 0 cuando k . Se deduce de aquí que wk ( m ) w 0 cuando m , donde n w ai ui , i 1 wk ( m ) w K wk ( m ) w y, debido a (1.2.24), wk vk / vk 1 / vk 0 cuando m . Pero, de otro lado tenemos 0 cuando k . Por eso w 0 y, por consiguiente, wk ( m ) cuando m . Esto contradice wk 0 1 para todo k. ■ Por ejemplo, x 2 x 1 n x x x x 2 2 n x x1n x (1.2.25) (1.2.26) (1.2.27) Notemos que en el límite, cuando la dimensión n tiende a infinito, la segunda constante en (1.2.25)-(1.2.27) no está acotada (también tiende a infinito) y, por lo tanto, la equivalencia de normas se pierde. Así, a diferencia de los espacios de dimensión finita, en un espacio de dimensión infinita dos normas no son en general equivalentes. ■ Ejercicios: n 1. Demuestre que xi i 1 2 n xi 2 si los vectores x i son ortogonales. i 1 2. Sea la función x una norma vectorial. Demuestre que x y x y . 27 3. Sea p1 un número natural. Demuestre que (1.2.12) satisface a todos los axiomas de la norma. 4. Demuestre que x, y x 1 y . 5. Demuestre que x 2 2 x 1 x . 6. Sea una norma vectorial, y T una matriz no singular. Demuestre que la función definida por x T Tx también es una norma vectorial. 2 7. Por qué la función x 2 x1 3 x 2 x 2 8. Demuestre que x 2 1/ 2 T es la norma? lim x p . p 9. Demuestre que la serie xk converge si converge la serie k 1 x k 1 k . 10. Sean U y V dos subespacios en R n , con U V . Demuestre que V U . 11. Sean U y V dos subespacios en R n . Demuestre que (U V ) U V . 12. Sean x 0 y y 0 dos vectores reales. Demuestre que x, y x2 y 2 2 y 1 n xi 1 i . 2 i 1 x 2 y 2 13. Explique, por qué cualquier conjunto de vectores que contiene un vector cero debe ser linealmente dependiente. 14. Demuestre que un conjunto de vectores M {x1 , x2 ,..., xn } es linealmente independiente si y sólo si el conjunto S {x1 , i 1 xi , i 1 xi ,..., i 1 xi } 2 3 n es linealmente independiente. 15. La independencia lineal de las funciones y de los vectores se define de la misma manera. ¿Cuál de los dos conjuntos de funciones es linealmente independiente: {sin x ,cos x , x cos x} o {sin 2 x , cos 2 x , cos 2 x} ? 16. Sean X y Y espacios de Banach con las normas {x, y} x X y Y , {x, y} x 2 y X X y Y , respectivamente. Demuestre que 2 1/2 Y y {x, y} max( x X, y Y) para {x, y} X Y definen normas en el producto X Y . 28 1.3. Matrices Es importante mencionar que en la teoría de matrices existen dos acercamientos a la definición de una matriz (Bellman, 1960; Gantmacher, 1966; Lancaster, 1969; Parlett, 1980; Lancaster y Tismenetsky, 1985; Horn y Johnson, 1999; Stewart y Ji-guang Sun, 1990). Por un lado, la matriz se considera como un conjunto de números. Por otro lado, representa una transformación lineal de un espacio vectorial a otro. Un arreglo rectangular a11 a A aij 21 am1 a12 a22 am 2 a1n a2 n amn de números complejos aij en sus m filas y n columnas se llama matriz rectangular de dimensión m n . Los números aij ( i 1, ,m ; j 1,,n ) se llaman elementos (o entradas) de la matriz A. En el caso cuando m n , A se llama matriz cuadrada de dimensión n. Definimos ahora las siguientes operaciones: (1) La suma de dos matrices m n A aij y B bij es la matriz m n C A B cij con elementos cij aij bij . (2) El producto de una matriz A aij por un número complejo es la matriz C A con elementos cij aij . (3) El producto de una matriz m l A aij por una matriz l n B bij es la matriz m n C AB cij con elementos cij aik bkj . l k 1 29 Una buena comprensión de la definición de la multiplicación de matrices es bastante útil: 1) La columna j-ésima de AB es la misma que A multiplicada por la columna j-ésima de B . 2) La fila i-ésima de AB es la misma que la fila i-ésima de A multiplicado por B . 3) El (i, j ) -elemento de ABC se obtiene como c1 j (ai1 ,..., aip ) B cqj donde (ai1 ,..., aip ) es la fila i-ésima de A , B bij es una matriz p q y (c1 j ,..., cqj) T es la columna j-ésima de C . Es fácil verificar que A(B C) AB AC , ( A B)C AC BC , y A(BC) ( AB)C En general, AB BA . En el caso cuando AB BA decimos que las matrices A y B conmutan. Introducimos ahora dos matrices importantes. La matriz nula 0 0 0 0 0 0 0 0 0 0 es aquella que todos sus elementos son cero, y la matriz identidad 1 0 0 0 1 0 E ij 0 0 1 que se define mediante la delta de Kronecker (1.2.9), es decir, sus elementos diagonales son todos uno y el resto son cero. 30 Definición 1.3.1. Sea A aij una matriz m n . La matriz n m AT ( AT )ij a ji se llama traspuesta, es decir, el elemento a ji de la matriz original A se convierte en el elemento ( AT )ij de la matriz transpuesta AT . Por ejemplo, i 2 3i A 4 5 2i 4 i y AT . 2 3i 5 2i La matriz conjugada A aij es el resultado de la sustitución de los elementos aij de la matriz A aij por sus conjugadas aij . Es decir, la parte imaginaria de los elementos de la matriz A cambia su signo: i 2 3i A 4 5 2i i 2 3i y A . 4 5 2i La matriz transpuesta conjugada, matriz adjunta o simplemente adjunta de una matriz A es una T matriz A A a ji obtenida de A mediante la obtención de su transpuesta y después de su conjugada compleja: i 2 3i A 4 5 2i 4 i A* . ■ 2 3i 5 2i y Así, A es la matriz conjugada de AT . Se puede verificar que A T T A, ( A B)T AT BT , ( AB)T BT AT (1.3.1) A, ( A B)* A* B* , ( AB)* B* A* (1.3.2) y A * * 31 Introducimos ahora inductivamente una característica (un número) importante y útil para una matriz cuadrada A. Se llama determinante de A y se denota por det(A) o por A . Supongamos primero que A es una matriz 1 1 , es decir, A a contiene solo un número a y por la definición ponemos det( A) a . Sea A una matriz 2 2 . En este caso, definimos det( A) a11 a12 a21 a22 a11a22 a12a21 (1.3.3) Ahora consideremos el caso general ( n 3 ). Definición 1.3.2. Sea A una matriz de n n . Denotamos como A(i, j ) la matriz (n 1) (n 1) obtenida de A omitiendo la i-ésima fila y la j-ésima columna. El determinante de A se define como n det( A) (1) i j aij det A(i, j ) , i 1,2,..., n (1.3.4) det( A) (1)i j aij det A(i, j ) , j 1,2,..., n (1.3.5) j 1 o como n i 1 Las fórmulas (1.3.4) y (1.3.5) se llaman la extensión de Laplace por la í-ésima fila y j-ésima columna, respectivamente. ■ Debido a que (1.3.4) y (1.3.5) son equivalentes, det( A) det( AT ) (1.3.6) Es preciso notar que el determinante no depende de la elección de una fila (índice i) en (1.3.4) o una columna (índice j) en (1.3.5). Aplicando la fórmula (1.3.4), por ejemplo, a una matriz 3 3 e i 1 , obtenemos: 32 3 a22 a23 j 1 a32 a33 det( A) (1)1 j a1 j det A(1, j ) a11 a12 a21 a23 a31 a33 a13 a21 a22 a31 a32 Se deducen directamente de las fórmulas (1.3.4) y (1.3.5) las siguientes propiedades del determinante: Teorema 1.3.1. Sean A y B dos matrices n n . (1) si todos los elementos de una fila (o columna) de A son nulos, entonces det( A) 0 ; (2) si B se obtiene de A mediante la multiplicación de una fila de A por un número no nulo , entonces det( B) det( A) ; (3) si B se obtiene de A mediante la adición de una fila, multiplicada por un número, a otra fila, entonces det(B) det( A) ; (4) si B se obtiene de una matriz A mediante el intercambio de dos filas, entonces det(B) det( A) ; (5) el determinante de una matriz triangular superior (o inferior) es egual al producto a11 a22 ann de sus elementos diagonales; (6) det( AB) det( A) det(B) . Debido a la propiedad (6) obtenemos, en particular, que det( A) det( A1 ) 1 o det( A1) 1/ det( A) Definición 1.3.3. Para una matriz cuadrada A, su inversa A 1 se define por las igualdades A 1 A AA 1 E (1.3.7) es decir, el producto de una matriz por su inversa es igual a la matriz identidad. ■ Esta matriz inversa A 1 existe aunque no siempre. Condición necesaria y suficiente para que una matriz sea invertible es que no sea singular, es decir, que su determinante sea no nulo det( A) 0 . Por ejemplo, dada una matriz de segundo orden con determinante no nulo: 1 a b 1 d b 1 d b A det( A) c a ad bc c a c d 1 Está definida siempre y cuando ad bc 0 . 33 Sean A y B dos matrices cuadradas de orden n. Debido a que ( AB)( B1 A1 ) E obtenemos que ( AB)1 B 1 A1 Quizás el método más frecuentemente usado para el cálculo de la matriz inversa X A1 es el siguiente: hay que resolver Ax j e j para A 1 y e j (0,...,1,0,...,0) T j 1, ...,n , donde x j es la j-ésima columna de . Sin embargo, el método requiere gran capacidad de almacenamiento j temporal. Definición 1.3.4. Sea A una matriz cuadrada de orden n. Un número complejo se llama eigenvalor (valor propio o autovalor) de A si Au u , (1.3.8) o bien, si es una raís del polinomio característico c( ) det( A E ) A E 0 (1.3.9) El vector u se denomina eigenvector (vector propio o autovector) de A. ■ El número de veces que un eigenvalor i se produce como una raíz de la ecuación característica se denomina la multiplicidad algebraica del valor propio. Factorizamos el polinomio característico como det( A E ) (1 ) (n ) (1.3.10) En particular, al elegir 0 en (1.3.10) obtenemos que det( A) es sólo el producto de los eigenvalores i de A: det A 1 34 n Del mismo modo, al igualar los coeficientes de n1 a cada lado de (1.3.10), vemos que t r A 1 2 n donde t r A a11 a22 ... ann es la traza de la matriz A definida como la suma de los elementos de la diagonal principal de A. Definición 1.3.9. Sea A una matriz m n , es decir, tiene m filas y n columnas. En este caso, A : R n R m es una transformación lineal del espacio R n al espacio R m . El subespacio im( A) Ax : x R n (1.3.11) del espacio R m se llama la imagen de A. El subespacio ker( A) x Rn : Ax 0 (1.3.12) del espacio R n se llama el espacio nulo de A. ■ Definición 1.3.10. Sea A una matriz m n . La dimensión de im( A) se llama el rango de A y se denota por rk( A) . La dimensión de ker(A) se llama la nulidad de A y se denota por null( A) . ■ Teorema 1.3.2. Sea A una matriz de n n . Entonces las siguientes afirmaciones son equivalentes: (1) det( A) 0 ; (2) A es invertible (no singular), es decir, existe A1 ; (3) rk( A) n ; (4) el sistema homogeneo Ax 0 tiene sólo la solución nula: x 0 (es decir, ker( A) 0 ). La demostración del teorema se puede encontrar, por ejemplo, en Jacob (1995). Teorema 1.3.3. Sea A una matriz de m n . Entonces rk( A) null( A) n . 35 Demostración. Sea u1 , u2 ,..., uk un sistema básica en ker(A) . Suponemos que uk 1 , uk 2 ,..., un extienden este sistema a una base para R n . Demostramos ahora que Auk 1 , Auk 2 ,..., Aun es la base en im( A) . En efecto, notemos que si u a1u1 a2 u2 ... an un es un vector de R n , entonces Au a1 Au1 a2 Au2 ... an Aun ak 1 Auk 1 ak 2 Auk 2 ... an Aun , es decir, im( A) es la combinación lineal de los vectores Auk 1 , Auk 2 ,..., Aun . Nos falta demostrar que estos vectores son linealmente independientes. Suponemos que ak 1 Auk 1 ak 2 Auk 2 ... an Aun 0 . Entonces A(ak 1uk 1 ak 2 uk 2 ... an un ) 0 , y ak 1uk 1 ak 2 uk 2 ... an un ker( A) . Así pues, existen números reales a1 , a2 , ..., ak tales que a1u1 a2 u2 ... ak uk ak 1uk 1 ak 2 uk 2 ... an un Ya que u1 , u2 ,..., un es el sistema básica en R n , tenemos vectores Auk 1 , Auk 2 ,..., Aun son linealmente a1 0, a2 0, ..., an 0 , es decir, los independientes. Hemos mostrado que rk( A) null( A) n . ■ Ejercicios: 1. Demuestre los teoremas 1.3.1 y 1.3.2. 2. Demuestre que dos rectas ax1 bx2 g y cx1 dx2 f se cruzan en un punto si y sólo si el a b determinante de la matriz es no nulo. c d 3. Determine una condición necesaria y suficiente para que a) ( A B)( A B) A2 B 2 ; b) ( A B)( A B) A2 B 2 . 4. Sean A y B dos matrices de orden n. Demuestre que 36 A B det A A det A det B A 5. Sean A, B, C y D matrices de orden n, además A es no singular. Demuestre que A B det det A det( D CA1B) . C D 6. Para cualquier matriz A , demostrar que A 0 si y sólo si tr AT A 0 . 7. Consideremos el conjunto de todas las matrices cuadradas A de orden n tal que tr A 0 . Demostrar que el conjunto es un espacio vectorial y encontrar su dimensión. 8. Demuestre que n n det A aij i 1 j 1 9. Una matriz A aij y n n det A aij j 1 i 1 se dice que es triangular superior si verifica que aij 0 para i j , y triangular inferior si verifica que aij 0 para i j . Demuestre que el determinante de una matriz triangular es igual al producto de sus elementos diagonales (y, por lo tanto, la matriz es singular si por lo menos uno de dichos elementos es nulo). 10. Sea A una matriz no A( E A)1 ( E A)1 A . singular. Demuestre que A y ( E A)1 conmutan: 11. Sean A y B dos matrices no singulares. Demuestre que si A y B conmutan, entonces A y B 1 también conmutan: AB 1 B 1 A . 12. Una matriz hermitiana A de orden n se llama definida positiva si Ax , x 0 para cualquier vector no nulo x . Demuestre que x A Ax , x es la norma si A es una matriz definida positiva. 13. Demuestre que det( AB) det A det B . 14. Demuestre que det A 0 si y sólo si A es singular. 15. Sea A una matriz no singular. Demuestre que det A det AT . 16. Sea A una matriz no singular. Demuestre que det A* det A . 37 n 17. Sea p( x) ak x k un polinomio de grado n, y sean k ( A) eigenvalores de una matriz cuadrada k 0 n n k 0 k 0 A de orden n. Demuestre que i ( pk ( A)) ak [i ( A)]k donde pk ( A) ak Ak . 18. Demuestre que el número de eigenvalores positivos de la matriz AT A es igual al rango rk( A) de la matriz A . 19. Demuestre que E p 1 para todos los p , while E F n , donde n es orden de la matriz identidad. 20. Sea A una matriz m n . Demuestre que max aij A 2 mn max aij . i, j i, j 21. Demuestre que im( AB) im( A) y ker( AB) ker( B) . 22. Sea A una matriz cuadrada no singular. Demuestre que sus columnas (y también sus filas) forman vectores linealmente independientes. 23. Demuestre que rk( A) es igual al tamaño de la más grande menor no cero de la matriz A . 38 1.4. Matrices especiales Entre la infinidad de matrices que podemos considerar, existen algunos que por tener características determinadas reciben nombres especiales y serán muy útiles posteriormente. Definición 1.4.1. Una matriz cuadrada A aij se llama escalar y se denota por A aE si aij a ij (1.4.1) donde a es un número, y ij es la delta de Kronecker (1.2.9). ■ Definición 1.4.2. Una matriz cuadrada A aij se dice que es diagonal si todos los elementos que no están en la diagonal principal son cero: aij di ij (1.4.2) donde d i son en general números distintos, dicha matriz se denota por A diag d1 , d 2 ,..., d n . ■ Definición 1.4.3. Una matriz A aij se dice que es triangular superior si verifica que aij 0 para i j , y triangular inferior si verifica que aij 0 para i j . ■ Las matrices 5 0 0 0 5 0 , 0 0 5 0 0 1 0 5 2i 0 , 0 0 6i 0 0 5i 4 9i 12 i 0 8 3i y 5 2 7i 0 0 6 9i 0 2 7i 4i 25 son ejemplos de una matriz escalar, diagonal, triangular superior y triangular inferior, respectivamente. 39 Definición 1.4.4. Una matriz real A se llama simétrica si A T A , y antisimétrica si A T A . Una matriz compleja A se llama hermitiana (o hermítica) si A A , y antihermitiana (o antihermítica) si A A . ■ En el caso de ser de elementos reales, una matriz hermitiana es sinónima de simétrica. Por ejemplo, las matrices 1 7i 1 7i 3 4 0 3 2 2i ,y 4 0 , 3 0 , 1 7i 9 0 1 7i representan una matriz simétrica, antisimétrica, hermitiana y antihermitiana, respectivamente. Definición 1.4.5. Una matriz real Q es ortogonal si verifica que QT Q QQT E , o Q T Q 1 . Una matriz compleja U se llama unitaria si U U UU E , o U U 1 . ■ Así pues, una matriz U u1 u2 un es unitaria (u ortogonal) si y sólo si sus columnas u j (o filas) forman una base ortonormal (es decir, representan vectores ortogonales cuyos módulos son iguales a uno): U U * ij 1 cuando i j ui*u j 0 cuando i j Por ejemplo, las matrices 1 / 2 1 / 2 1 / 2 1/ 2 y 1/ 2 1/ 3 1/ 2 1/ 3 1/ 3 0 son ortogonales, mientras que las matrices 1 2 1 i i 1 1 1 i 1 i 2 1 i 1 i y 40 1/ 6 1/ 6 2 / 6 son unitarias. Notemos que es fácil hallar la solución del problema Ax b para una matriz ortogonal (o unitaria) A ya que x A1b AT b ( x A*b ). El conjunto de las matrices adjuntas (o hermitianas) contiene las matrices traspuestas (simétricas), y los conjuntos de las matrices antihermitianas (o unitarias) contienen las matrices antisimétricas (ortogonales). Definición 1.4.6. Una matriz hermitiana A de orden n se llama definida positiva y se denota por A 0 si n n Ax, x x Ax aij xi x j 0 (1.4.3) i 1 j 1 para cualquier vector no nulo x de C n . En este caso, la matriz A se llama definida negativa y se denota por A 0 . La matriz A se llama semidefinida positiva y se denota por A 0 si Ax, x 0 para cualquier vector x de C n . ■ Hacemos un comentario importante. Sea A una matriz cuadrada compleja. Notemos que en la representación A A A , la matriz A 12 ( A A* ) es hermitiana y la matriz A 12 ( A A* ) es antihermitiana, además, x A x es real y x A x es puro imaginario para todos los vectores complejos x . Así, si Ax , x x Ax x A x x A x es real para todos los vectores complejos x , entonces x A x 0 y A 0 , es decir, A es hermitiana. Por lo tanto, la suposición de que A es hermitiana en la Definición 1.4.6 no es necesario. Sin embargo, es acostumbrado. Si una matriz A es definida positiva entonces A es no singular. En efecto, si Ax 0 entonces Ax , x 0 y, por lo tanto, x 0 y A no es singular. 41 Sea A una matriz hermitiana y definida positiva de orden n . Esto es equivalente a la condición de que la matriz A es hermitiana y todos sus eigenvalores son positivos, o que A H 2 con una matriz hermitiana no singular H. Además, det A 1 n 0 para una matriz hermitiana y definida positiva. También mencionamos que todos eigenvalores de una matriz hermitiana y semidefinida positiva son no negativos. Ejemplo 1.4.1. Se puede dar ejemplo cuando una matriz no hermitiana satisface la condición (1.4.3), pero tiene un eigenvalor complejo. En efecto, sea B una matriz antisimétrica y a 0 . Entonces la matriz A B aE tiene eigenvalores ( A) ( B) a . Si el orden de la matriz B es igual o grande que 2, entonces entre eigenvalores (B) existe por lo menos un número puro imaginario y, por lo tanto, ( A) ( B) a no es un número real (es cierto, por ejemplo para la 0 1 matriz B ). Sin embargo, la condición (1.4.3) se cumple: Ax , x Bx , x a x , x 0 .■ 1 0 2 Definición 1.4.7. Se dice que una matriz cuadrada es idempotente si A A . ■ Si A es idempotente, entonces cada valor propio de A es 0 o 1 . En efecto, si 1 ,..., n son 2 2 2 2 eigenvalores de A entonces 1 ,..., n son eigenvalores de A . Por lo tanto, las igualdades i i implican solo dos opciones: i 0 o i 1 para cada i. La matriz nula o la matriz unidad son 2 ejemplos de las matrices idempotentes: 02 0 , E E . También son idempotentes las siguientes matrices: 1 A 0 , 0 2 / 3 1/ 3 A , 2 / 3 1/ 3 42 A 2 2 1 n m Ejemplo 1.4.2. Notemos que un proyector P : R R donde m n es una matriz idempotente. Introducimos ahora un proyector ortogonal elemental sobre el subespacio de los vectores, ortogonales a un vector dado w . Demostremos que dicho proyector es la matriz P E wwT donde wT w w w 2 1 . En efecto, la matriz P es idempotente: P 2 P . Además, cada vector x se puede presentar como x Px (I P) x . Evidentemente que ( I P) x w( wT x ) tiene dirección del vector w , mientras que Px es ortogonal a w , ya que Px , w wT Px 0 . Claro que ( I P) wwT (wwT )2 es otro proyector ortogonal sobre el subespacio unidimensional formado por el vector w . ■ Definición 1.4.8. Una matriz cuadrada B se llama semejante a una matriz A si existe una matriz no singular S , tal que B S 1 AS . ■ Definición 1.4.9. Una matriz cuadrada A se llama unitariamente semejante a una matriz triangular superior R si existe una matriz unitaria U , tal que A U RU U 1RU . ■ Es preciso notar que si A U 1RU entonces los elementos diagonales rii de R son eigenvalores de A. En efecto, c( ) det(E A) det(U 1U U 1RU ) det(U 1 ) det(E R) det(U ) n det(E R) ( rii ) . i 1 43 (1.4.4) Ya que, al mismo tiempo, c( ) n ( ) , obtenemos que i i 1 i rii ( i 1,2,..., n ). Notemos que rii son eigenvalores de R. Se deduce de (1.4.4) que dos matrices unitariamente semijantes tienen los mismos eigenvalores. Teorema 1.4.1 (Schur y Toeplitz). Cualquier matriz A de n n es unitariamente semejante a una matriz triangular superior R. ■ Demostración. Usaremos la inducción matemática. Sea n 2 y A tiene eigenvalor 1 con eigenvector u1 normalizado: u1 2 1 . Usando la ortogonalización de Gram-Schmidt, construimos la base ortonormal u1 ,u2 . La matriz U 2 u1,u2 es unitaria. Entonces u1* u1* Au1 u1* Au2 R U AU 2 * A u1 , u2 * * u2 u2 Au1 u2 Au2 * 2 * Ya que Au1 1u1 y u2u1 0 , tenemos u2* Au1 0 y, por lo tanto, R es la matriz triangular superior. Supongamos que el teorema es valido en el caso cuando n k 1 , es decir, existe una matriz unitaria Vk 1 tal que la matriz Vk*1 Ak 1Vk 1 es triangular superior. Demostramos ahora su validez para n k . Sea 1 un eigenvalor de A con eigenvector u1 normalizado: u1 ortogonalización de Gram-Schmidt, construimos la base ortonormal U k u1 , u2 ,...,uk es unitaria. Entonces u1* U k* AU k A u1 , ...,uk 1 0 uk* 44 Ak 1 2 1 . Usando u1 , u2 ,...,uk . La matriz donde Ak 1 es una matriz (k 1) (k 1) . Por hipótesis de inducción, existe una matriz unitaria Vk 1 tal que la matriz Vk*1 Ak 1Vk 1 es triangular superior. La fórmula 1 0 Vk U k 0 Vk 1 define una matriz unitaria k k , además, R Vk* AkVk es triangular superior. El teorema queda demostrado. ■ Cualquier matriz diagonal, simétrica, antisimétrica, hermitiana, antihermitiana, ortogonal o unitaria pertenece a un conjunto de matrices normales que conmutan con su matriz adjunta: AA A A (1.4.5) Este conjunto es más amplio que la unión de las matrices hermitianas, antihermitianas, y unitarias. Por ejemplo, la matriz 1 1 no es simétrica o ortogonal, pero es normal. El sistema de eigenvectores de 1 1 una matriz normal de orden n con distintos eigenvalores representa una base ortogonal del espacio vectorial de dimensión n. Y para una matriz normal con algunos eigenvalores iguales, hay una libertad en la definición de eigenvectores; correspondientes a los eigenvalores iguales (relacionada con su reemplazo por cualquiera combinación lineal). Esto significa que siempre se puede realizar la ortogonalización de Gram-Schmidt y encontrar un conjunto completo de eigenvectores ortogonales. Además, la importancia de las matrices normales se explica por la siguiente proposición. Teorema 1.4.2. Una matriz cuadrada A es normal si y solo si ella es unitariamente semejante a la matriz diagonal de sus eigenvalores. 45 Demostración. Supongamos que A es normal. Según el teorema 1.4.1, existe una matriz unitaria U y una matriz triangular superior R, tales que A U RU . Es fácil verificar que AA A A RR R R . Igualando los elementos (1,1) de la última ecuación, obtenemos n r 2 1j j 1 r11 . 2 Por lo tanto, r1 j 0 para j=2,3,…,n. Igualando los elementos (2,2) de la misma ecuación, llegamos a n r j 2 Ya que r12 0 , se deduce que 2j 2 r12 r22 . 2 r2 j 0 para 2 j=3,4,…,n. Continuando de la misma manera, encontramos que R es diagonal: R D . Ya que el problema espectral Avn n v n es equivalente al problema D(Uv n ) n (Uv n ) , tenemos rii i , es decir, los elementos rii son eigenvalores. Al contrario, supongamos que A se puede presentar de la forma A U DU , donde U es una matriz unitaria y D es una matriz diagonal. Entonces AA (U DU )(U DU ) U DDU U DDU (U DU ) (U DU ) A A . ■ Ejercicios: 1. Sea A una matriz antihermitiana: A A . Demuestre que todos sus eigenvalores son puro imaginarios (es decir, pertenecen al eje imaginario). 2. Demuestre que una matriz triangular A es normal si y sólo si A es diagonal. 3. Una matriz A se llama estrictamente triangular superior si A es triangular superior con los elementos diagonales nulos. Demuestre que si matriz n n A es estrictamente triangular superior, entonces An 0 . 4. Demuestre que el producto de las matrices triangulares superiores (o inferiores) también es una matriz triangular superior (inferior). 46 5. Demuestre que la matriz inversa a una matriz triangular superior (o inferior) también es triangular superior (inferior). Los ejercicios 4 y 5 muestren que el conjunto de las matrices triangulares superiores (o inferiores) del mismo orden es un espacio lineal. 6. Sea A una matriz simétrica y definida positiva, y sea C una matriz real no singular. Demuestre que C T AC también es definida positiva. 7. Sean A y B dos matrices antisimétricas del mismo orden. Demuestre que AB es simétrica si y sólo si AB BA . 8. Demuestre que los elementos diagonales de una matriz definida positiva son positivos. 9. Demuestre que la matriz 1 2 3 A 2 3 4 3 4 4 no es definida positiva. 10. Sea A una matriz simétrica, no singular. Demuestre que A es definida positiva si y sólo si A1 es definida positiva. 11. Sea A una matriz normal. Demuestre que A E es también normal. 12. Sea A una matriz normal. Demuestre que x es eigenvector de A si y solo si x es eigenvector de A* . 13. Sea H una matriz hermitiana. Demuestre que la matriz Q ( E iH )1 ( E iH ) es unitaria. 14. Sea A E xx* donde x 2 1 . Encuentre todos los números complejos , para los cuales la matriz A será unitaria. 15. Sea U12 U U 12 U 21 U 22 una matriz unitaria descompuesta en cuatro bloques n n . Demuestre que det(U12 ) det(U 21 ) . 16. Demuestre que si una matriz semidefinida positiva tiene un elemento diagonal cero, entonces toda la fila y la columna, a la que pertenece dicho elemento, debe ser cero. 47 17. Sea A una matriz simétrica y definida positiva. Demuestre que 1/2 x A Ax , x 1/2 n n aij xi x j i 1 j 1 es una norma vectorial. 18. Sea A una matriz normal. Demuestra que A 2 es igual al radio espectral ( A) . 19. Sea Q una matriz ortogonal. Demuestre que i (Q ) 1 para todos los eigenvalores i (Q) . 20. Demuestre que una matriz A es no singular si y sólo si 12 ( A A* ) es no singular. 21. Sea U una matriz unitaria. Demuestre que las siguientes propiedades son equivalentes: a) U tiene columnas ortonormales; b) U tiene filas ortonormales; c) U U 1 d) Ux 2 x 2 . 1 1 22. ¿Si la matriz A es antisimétrica? 1 0 23. Sea A una matriz antihermitiana. Demuestre que A 12 ( A A* ) . 24. Demuestre que P 2 25. Demuestre que P 2 1 para cada proyector P 0 . ¿Cuándo P EP 2 2 1? para cada proyector P 0 y P E . 48 1.5. Problema espectral Definición 1.5.1. Sea A una matriz de n n . El problema espectral para A tiene la forma: Au u (1.5.1) donde es eigenvalor y u es eigenvector (véase la Definición 2.2.7). La matriz A tiene exactamente n eigenvalores. El conjunto de todos los eigenvalores de A se llama el espectro de A. ■ Se deduce de (1.5.1) that A1u 1 u (1.5.2) Así, la matriz inversa tiene las mismos eigenvectores pero invierte los eigenvalores. Sea a un número complejo, a 0 . Es evidente que A(au ) (au ) y, por lo tanto, au también es eigenvector asociado con el mismo eigenvalor . Notemos que un eigenvalor puede ser nulo, pero el eigenvector u siempre tiene que ser no nulo. Si 0 entonces el eigenvector asociado con u pertenece al ker(A) . El problema (1.5.1) es equivalente al problema (E A) u 0 Entonces u es eigenvector asociado con el eigenvalor si y sólo si u ker(E A) . El problema (1.5.1) tiene una solución única no nula si det(E A) 0 (1.5.3) o bien, si es una raís del polinomio característico c( ) det(E A) . Teorema 1.5.1 (Forma canónica de Jordan). 1. Sea A una matriz compleja n n con eigenvalores 1 ,..., n (no necesariamente distintos). Entonces existe una matriz compleja n n X tal que 49 X 1 AX diag( J1 ,..., J m ) donde i 0 Ji 0 es una celda de Jordan ki ki y m 1 i 0 1 0 i 1 i 0 0 0 1 i k n. i 1 i 2. Sea A una matriz real n n con eigenvalores 1 ,..., n (no necesariamente distintos). Entonces existe una matriz real n n X tal que X 1 AX diag( J1 ,..., J m ) donde i 0 Ji 0 1 i 0 1 0 i 1 i 0 0 0 1 i en el caso de eigenvalores reales, y M i 0 Ji 0 I2 Mi 0 I2 Mi 0 I2 Mi 0 50 0 0 I2 M i i i 1 0 donde M i y I2 en el caso de eigenvalores complejo conjugados i ii . i i 0 1 Demostración. Véase demostración, por ejemplo, en Ortega (1987). Definición 1.5.2. Una matriz cuadrada A se llama diagonalizable (o simple) si existe una matriz invertible (no singular) P tal que P 1 AP D es una matriz diagonal. Dicen que A es semejante a D. ■ Según el Teorema 1.4.2, cada matriz normal es diagonalizable. Sin embargo, la clase de las matrices diagonalizables es más amplia que la de las matrices normales. Si D es una matriz diagonal D diag 1 , 2 ,..., n , entonces su polinomio característico es c( ) ( 1 )( 2 ) ( n ) . (1.5.4) Así, los eigenvalores de D son 1 , 2 ,..., n , mientras que el eigenvector que corresponde al eigenvalor i es el vector básico ei 0,...,1,0,...,0 con todas sus componentes nulas, excepto la i- ésima componente, la cual es uno. Supongamos que A es diagonalizable, es decir, existe una matriz invertible P tal que P 1 AP D es diagonal. Entonces AP PD , y A( Pei ) ( AP)ei ( PD)ei P( Dei ) Pi ei i ( Pei ) . Así, Pei es eigenvector de A con eigenvalor i ( i 1,2,..., n ). Ya que ei son vectores canónicos ortogonales y P es invertible, obtenemos que cada matriz diagonalizable n n tiene n eigenvectores linealmente independientes Pe1 , Pe2 ,..., Pen . Por eso, la búsqueda de la matriz P para diagonalizar A es un problema extremadamente importante en la teoría de matrices. 51 Teorema 1.5.2. Una matriz cuadrada A de dimensión n es diagonalizable si y sólo si A tiene n eigenvectores linealmente independientes. Demostración. Sea A una matriz diagonalizable. Entonces P 1 AP D , donde D diag 1 , 2 ,..., n , y Pei es eigenvector de A con eigenvalor i ( i 1,2,..., n ). Debido a que los vectores Pei son las columnas de la matriz invertible P, ellos son linealmente independientes. Al contrario, supongamos que tiene n eigenvectores linealmente independientes u1 , u2 ,..., un : Aui i ui . Sea P u1 , u2 ,..., un la matriz cuyas columnas son eigenvectores. Por la definición de la multiplicación de matrices, tenemos Pei ui . De la misma manera, ( P 1 AP)ei es la i-ésima columna de P 1 AP . Encontramos que ( P 1 AP)ei P 1 Aui i P 1 ui i P 1 Pei i ei , es decir, P 1 AP D diag 1 , 2 ,..., n es la matriz diagonal. ■ La demostración del teorema nos muestra la manera de construir la matriz P en el caso cuando sabemos que la matriz A es diagonalizable: las columnas de P son eigenvectores. Cada matriz n n tiene exactamente n eigenvalores. La pregunta importante es, ¿cuando una matriz n n tiene n eigenvectores linealmente independientes? La afirmación siguiente presenta condiciones que garantizan la existencia de n eigenvectores linealmente independientes. Teorema 1.5.3. Sean u1 , u2 ,..., un eigenvectores de una matriz A que corresponden a n eigenvalores diferentes 1 , 2 ,..., n . Entonces los vectores u1 , u2 ,..., un son linealmente independientes. Demostración. Supongamos lo contrario, es decir, a1 u1 a2 u2 ... an un 0 52 (1.5.5) donde no todos los números ai son nulos. Notemos que por lo menos dos coeficientos ai son no nulos, ya que los vectores u1 , u2 ,..., un son no nulos. Supongamos que (1.5.5) contiene un número mínimo de los coeficientes no nulos ai entre todas las expresiones (1.5.5) posibles. Siempre se puede reordenar los eigenvalores de tal manera que a1 0 y 1 0 . Tenemos 0 A 0 A(a1 u1 a2 u2 ... an un ) a1 1 u1 a2 2 u2 ... an n un , o bien, a1 u1 a2 2 u2 ... an n un 0 1 1 (1.5.6) Restando (1.5.6) de (1.5.5) obtenemos 0 u1 a2 (1 2 ) u2 ... an (1 n ) un 0 1 1 (1.5.7) donde todos los coeficientos (1 2 / 1 ), ..., (1 n / 1 ) son no nulos. Ya que por lo menos dos coeficientos ai son no nulos en (1.5.5), al menos un coeficiente a2 , a3 ,..., an es no nulo. Entonces, (1.5.7) es una combinación lineal no trivial que es igual a cero. Puesto que u1 tiene 0 como su coeficiente, (1.5.7) tiene menos coeficientes no nulos que (1.5.5). Lo último contradice a nuestra elección original de la expresión (1.5.5). El teorema queda demostrado. ■ Corolario 1.5.1. Si una matriz cuadrada A de dimensión n tiene n eigenvalores distintos (o su polinomio característico (1.5.4) tiene n raíces distintas), entonces A es diagonalizable. ■ Definición 1.5.3. Sea i eigenvalor de una matriz n n . La potencia máxima de ( i ) que divide el polinomio característico (1.5.4) se llama la multiplicidad algebraica del eigenvalor i . La dimensión del eigenespacio de A asociado con i se llama la multiplicidad geométrica del 53 eigenvalor i . Así, la multiplicidad geométrica de un eigenvalor nunca supera su multiplicidad algebraica (Bhatia, 1997). Una matriz se llama defectuosa si tiene por lo menos un eigenvalor tal que su multiplicidad geométrica es menor que su multiplicidad algebraica. Una matriz se llama no defectuosa si la multiplicidad geométrica de cada eigenvalor coincide con su multiplicidad algebraica. Si la multiplicidad geométrica de cada eigenvalor de una matriz es 1 (indepentientemente de su multiplicidad algebraica), entonces la matriz se llama simple. ■ Una matriz simple y no defectuosa tiene distintos eigenvalores. Teorema 1.5.4 (Gantmacher, 1966). Una matriz cuadrada A de dimensión n es diagonalizable si y sólo si la multiplicidad geométrica de cada eigenvalor de A coincide con su multiplicidad algebraica. ■ Ejemplo 1.5.1. Consideremos la celda de Jordan de dimensión 2 (Lancaster, 1969): 2 1 J 0 2 La matriz J tiene el polinomio característico c( ) ( 2)2 y eigenvalor 2 con multiplicidad algebraica 2. Sin embargo, la multiplicidad geométrica del eigenvalor 2 es 1, ya que su eigenespacio es unidimensional y, por consiguiente, J no tiene dos eigenvectores independentes. La matriz J no es diagonalizable (es defectuosa). Ejemplo 1.5.2. Consideremos la matriz 5 0 A 0 0 0 5 1 0 0 5 0 0 0 1 1 0 Su polinomio característico es 54 5 0 c( ) det(E A) det 0 0 1 0 5 1 0 ( 5)3 ( 1) 0 5 0 0 0 1 0 con dos raices 5 y 1 , y sus eigenvalores son 5, 5, 5, y 1 . La matriz A es diagonal por bloques, y uno de dos bloques representa la celda de Jordan de dimensión 3. Entonces, la matriz es defectuosa. Tiene eigenvalor 5 con multiplicidad algebraica 3 y multiplicidad geométrica 1. Con el fin de hallar los espacios propios (eigenespacios), hay que calcular ker (E A) y ker (5E A) . El eigenespacio asociado con 5 es 0 1 0 0 0 1 ker (5E A) ker 0 0 0 0 0 0 0 1 0 0 span 0 0 0 4 y eigenespacio asociado con 1 es 6 1 0 0 6 1 ker ( E A) ker 0 0 6 0 0 0 0 0 0 0 span 0 0 1 0 En las últimas fórmulas span a es el espacio unidimencional formado por el vector a . ■ Teorema 1.5.5. Todos los eigenvalores de una matriz hermitiana A son reales. Además, sus eigenvectores correspondientes a diferentes eigenvalores son ortogonales. Demostración. En efecto, consideremos el problema espectral para la matriz A : Ax x . De aquí tenemos x A x , y por lo tanto, ( ) x x 0 . Ya que x 0 , obtenemos , es decir, el eigenvalor es real. Sea Ay y , donde . Por una parte, y Ax y x , por otra 55 parte tenemos y A y A ( Ay ) ( y ) y , por lo tanto, ( ) y x ( ) x , y 0 . Ya que , obtenemos x , y 0 , es decir, dos eigenvectores son ortogonales. ■ Definición 1.5.4. Sea A una matriz cuadrada de dimensión n. La forma cuadrática F (x) asociada con A se define mediante el producto escalar como n n F ( x ) A x , x x A x aij xi x j . ■ (1.5.8) i 1 j 1 En particular, para una matriz diagonal D diag d1 , d 2 ,..., d n , la forma n 2 F ( x ) Dx, x x D x di xi (1.5.9) i 1 se llama el polinomio diagonal. Una forma F (x) se llama definida positiva (o semidefinida positiva) si F ( x) 0 ( F ( x) 0 ) para cualquier vector no nulo x de C n . Ya que cualquier matriz cuadrada real A se puede presentar como suma de dos matrices: 1 1 A ( A AT ) ( A AT ) 2 2 (1.5.10) 1 1 donde S ( A AT ) es simétrica, y B ( A AT ) es antisimétrica, se obtiene 2 2 F ( x ) Ax , x S x , x (1.5.11) puesto que Bx , x 0 para una matriz simétrica y cualquier vector x de R n . La propiedad de que una matriz hermitiana S es unitariamente semejante a una matriz diagonal D diag d1 , d 2 ,..., d n (véase el Teorema 1.4.2) es extremadamente útil en relación a las formas cuadráticas. En efecto, ya que existe una matriz unitaria U tal que U *SU D , la forma cuadratica F (x) acepta la forma de un polinomio diagonal 56 n 2 F ( x ) x S x x (U * DU ) x (Ux )* D(U x ) y* Dy di yi (1.5.12) i 1 en nuevas variables y1 , y2 ,..., yn definidas por la transformación y Ux . Ejemplo 1.5.3. Sea x ( x1 , x2 )T un vector columna. Consideremos la forma F ( x ) Sx , x donde 1 3 S 3 1 es la matriz simétrica que es unitariamente semejante a la matriz diagonal D QSQT diag 2, 4 donde 12 Q 1 2 1 2 1 2 es la matriz ortogonal: QT Q 1 . Por eso, introduciendo otro vector columna y ( y1 , y2 )T mediante la fórmula y1 x QT 1 Q y2 x2 1 2 1 2 1 2 1 2 x1 1 x1 x2 x x x 2 2 1 2 obtenemos que F ( x1 , x2 ) 2 y12 4 y22 . ■ Ejercicios: 1. Sean 1 ,..., n eigenvalores de la matriz A. Demuestre que det A 1 n . 2. Sea A una matriz hermitiana diagonal dominante ( aii aij para cada i). Demuestre que A es j i definida positiva si todos sus elementos diagonales son positivos. 3. Sean 1 ,..., n eigenvalores y sean u1 ,..., u n eigenvectores de una matriz A, es decir, Aui i ui . Demuestre que para cada número complejo c , ( A cE)ui (i c)u , es decir la matriz A+cE tiene eigenvalores 1 c,...,n c . 57 4. Sea A una matriz no singular y Au u . Demuestre que A1u 1u . 5. Sea A una matriz diagonal, A diag{ d1 ,..., d n } . Demuestre que d1 ,..., d n son eigenvalores de A. 6. Demuestre que det A 0 si y sólo si A tiene eigenvalor nulo. 7. Demuestre que los eigenvalores de A son los mismos que los de A T . Demuestre con un ejemplo que los eigenvectores de A y A T son distintos. 8. Demuestre que si A y B son matrices de dimensión n, entonces los eigenvalores de AB son los mismos que los de BA. 9. Encuentre el polinomio característico y tres eigenvectores ortogonales de la matriz simétrica 2 2 4 S 2 5 2 . 4 2 2 10. Encuentre la matriz no singular P que diagonaliza la matriz S del ejercicio anterior. Demuestre que P es ortogonal. 11. ¿Cuales de las siguientes curvas son elipses y cuales son hipérbolas? x12 4 x1 x2 1 , x12 2 x1 x2 4 x22 1, x12 4 x1 x2 4 x22 1 , x12 6 x1 x2 4 x22 1. 12. Encontrar los eigenvalores de la matriz cuadrada de orden n con todos los elementos diagonales iguales a a y todos los elementos restantes iguales a b [Respuesta: a (n 1)b y a b con multiplicidades 1 y n 1 , respectivamente.] 13. Si B es una matriz no singular, a continuación, mostrar que A y B 1 AB tienen los mismos eigenvalores. 14. Sea Pn ( x ) un polinomio algebraico de grado n, y sean i eigenvalores de una matriz A. Demostrar que Pn (i ) son eigenvalores de la matriz Pn ( A) . 15. Sean A y B dos matrices cuadradas de orden n tales que A, B, y A-B son semidefinidas positivas. Demostrar que A1/2 B1/2 es semidefinida positiva. 16. Sea A una matriz cuadrada tal que A AT es definida positiva. Demostrar que A es no singular [Indirecta: Usar que xT ( A AT ) x 0 si Ax 0 ]. 58 1.6. Normas matriciales El conjunto de las matrices de n n es un espacio vectorial de dimensión n2 y, por lo tanto, “el valor” de una matriz se puede medir mediante una norma vectorial. Sin embargo, el espacio matricial no es simplimente un espacio vectorial, ya que en dicho espacio está definida la operación de la multiplicación de las matrices. Por eso, al estimar una matriz, a menudo es útil relacionar la norma del producto AB de dos matrices con las normas de cada factor A y B. Definición 1.6.1. Una función de matrices se llama norma matricial si para cualesquiera matrices A y B se satisfacen los axiomas siguientes: 1. A 0 ; 2. A 0 A 0; 3. aA a A para cualquier número complejo a; 4. A B A B (desigualdad triangular); 5. AB A B (compatibilidad). ■ Una norma muy útil es la norma de Frobenius A F n n 2 a ij i 1 j 1 1I 2 (1.6.1) También se llama norma euclidiana (o de Hilbert-Schmidt). Se puede demostrar que m A F tr ( AA* ) tr ( A* A) i 2 2 i 1 n donde tr ( A) aii es la traza de A, y i es eigenvalor no nulo de A (i=1,2,…,m). i 1 Definición 1.6.2. Una norma matricial se llama consistente con una norma vectorial si Ax A x para cada x . 59 Definición 1.6.3. Una norma matricial se llama subordinada a una norma vectorial (o norma asociada con una norma vectorial) si A max Ax max A x 1 x 0 Ax x max x 0 x x Claro que cualquier norma subordinada es consistente. Además, entre todas las normas consistentes con una norma vectorial la norma subordinada es mínima. Notemos que no todas las normas matriciales están asociadas. Por ejemplo, la norma de Frobenius no está asociada. Introducimos ahora una familia de las normas matriciales útiles dependiente de un número natural p. Definición 1.6.4. Sea p 1 un número entero. La p-norma de una matriz A se define por A p max Ax x p 1 p Ax p max x 0 x p ■ (1.6.2) Así, la p-norma (1.6.2) es la norma matricial subordinada a la p-norma vectorial (1.2.12). Definición 1.6.5. El radio espectral ( A) de una matriz A es ( A) max i ( A) . ■ 1i n La 2-norma A 2 ( A* A) (1.6.3) llamada norma espectral de la matriz A se define mediante el eigenvalor máximo ( A* A) max i ( A* A) 1i n de la matriz hermitiana y semidefinida positiva A* A . En efecto, 60 Ax 2 2 A* Ax , x para todos los x con x 2 1 . Además, todos eigenvalores i ( A* A) son números reales y no negativos, ya que x 2 x , x A* Ax , x Ax , Ax Ax 2 0 2 2 Denotamos i ( A* A) i2 , y sea 0 12 ... n2 . Entonces ( A* A) n2 . Debido de definición de 2norma se obtiene A 2 max Ax 2 x 2 1 2 2 n2 y A 2 n ( A* A) . Teorema 1.6.1. Para una matriz normal A, A 2 max i ( A) , (1.6.4) 1i n es decir, la norma espectral coincide con el radio espectral (A) de la matriz A. Demostración. Según el Teorema 1.4.2, cualquier matriz normal se presenta como A U U , donde diag 1 , 2 ,...,n es la matriz diagonal de los eigenvalores de A. Así pués, Sea x el eigenvector normalizado ( x 2 Ux 2 1 ) de A A* A U (UU )U U U . correspondiente al eigenvalor máximo según módulo: Ax x , y ( A) . Debido a que el problema espectral Ax x es equivalente al problema (Ux) (Ux) , obtenemos 2 2 A 2 max Ax 2 max Ax , Ax max A* Ax , x max U * Ux , x x 2 1 x 2 1 x 2 1 x 2 1 2 2 max (Ux ) 2 2 ( A) . ■ Ux 2 1 Teorema 1.6.2. Sea A una matriz normal y sea una norma matricial. Entonces ( A) A 61 (1.6.5) Demostración. Sea Ax x , x 0 , y x 1 . Entonces x x Ax A x A y, por lo tanto, ( A) max A . ■ y una matriz A, tenemos Para cada norma matricial 1 , A A 1 E 1, An A n La desigualdad E 1 es cierta debido al Teorema 1.6.1, ya que la norma espectral de la matriz identidad E es igual a uno. Las otras dos desigualdades se deducen inmediatamente del axioma 5 de la definición 1.6.1. Por ejemplo, A 1 A A 1 A E 1 . Si A es una matriz definida positiva y hermitiana ( A* A ), entonces la función x A Ax, x 1/2 es la norma matricial, se llama norma de energía. Ejemplo 1.6.1. Demostremos que AB AB 2 F n n n aik bkj i 1 j 1 k 1 F 2 A F B F . En efecto, n n n 2 n 2 aik bk j i 1 j 1 k 1 k 1 n n n n 2 aik b jk i 1 k 1 j 1 k 1 Ejemplo 1.6.2. Demostremos ahora que AB 62 p 2 A A p B p 2 F B 2 F . En efecto, AB p ABx sup x p x 0 p A( Bx ) sup Bx p x 0 Ay p Bx p sup sup A x p y 0 y p x 0 p p Bx p x p B p. Ejemplo 1.6.3. Demostremos que A max Ax x 1 Mediante la fórmula (1.2.15), obtenemos Ax n n max aij x j max aij x j x 1i n 1i n j 1 j 1 n max aij 1i n j 1 Si ahora demostramos que en la última desigualdad se alcanza la igualdad para un vector x , entonces n A max aij . Con este fin, fijemos un i , y elegimos x x j 1i n caso, x j 1 1, n n j 1 j 1 Ax aij x j aij , y x n j 1 , donde x j sign aij . En este n max aij . Así, 1 i n j 1 n A max aij 1in (1.6.6) j 1 Se llama la norma máxima por las filas. ■ Ejemplo 1.6.4. La función A max max aij 1 i , j n no es la norma, ya que no se cumple el axioma 5 de la norma. En efecto, si 1 1 , entonces A B 1 1 2 AB 63 max A max B max 1. Sin embargo, es fácil verificar que la función ligeramente modificada, A n max n max aij , ya 1 i , j n satisface a todos los axiomas de la norma matricial. Ejemplo 1.6.5. Demostremos que n A 1 max aij 1 j n (1.6.7) i 1 En efecto, según (1.2.13), tenemos n n i 1 j 1 n n Ax 1 aij x j aij x j i 1 j 1 n n max aij x j x 1 max aij 1 j n 1 j n i 1 i 1 j 1 n (1.6.8) Si ahora demostramos que en la última desigualdad se alcanza la igualdad para un vector x , entonces, A 1 max aij . Supongamos que max aij se alcanza para j= k , y elegimos un x x j j 1 n 1 j n n 1 j n i 1 n i 1 donde todos x j son nulos excepto x k sign a ik . En este caso, x 1 1 y, por lo tanto, n n n n Ax 1 aij x j aik x 1 max aij i 1 j 1 i 1 1 j n i 1 La fórmula (1.6.7) queda demostrada. Se llama la norma máxima por las columnas. ■ Evidentamente que A 1 A para una matriz hermitiana. Teorema 1.6.3. Transformaciones unitarias (u ortogonales) no cambian la norma espectral (2norma) ni la de Frobenius de una matriz A; es decir, 64 QAZ 2 A 2, y QAZ F A (1.6.9) F para cualesquiera matrices unitarias (u ortogonales) Q y Z. Demostración. En efecto, usando (1.2.17) obtenemos QAZ 2 Q( AZ x ) sup x2 x 0 2 A( Z x ) sup Zx 0 Zx 2 2 A2 (1.6.10) Luego, si escribimos la matriz A a1 a2 an mediante sus vectores columnas ai entonces 2 2 A F a1 2 a2 2 2 ... an 2 2 Usando de nuevo (1.2.17) obtenemos 2 2 QA F Qa1 2 Qa2 Usando la igualdad B F B* F 2 2 ... Qan 2 2 2 a1 2 a2 2 2 ... an 2 2 AF 2 obtenemos QAZ F AZ F Z * A* F A* F AF donde Q y Z son matrices unitarias. ■ Ya mencionamos en el principio de esta sección que un espacio de las matrices n n es el espacio vectorial de dimensión finita n 2 y, por el teorema 1.2.1, dos normas matriciales en este espacio siempre son equivalentes: C A p Aq K A p (1.6.11) Las desigualdades (1.6.11) tienen gran importancia en varias estimaciones de las matrices. Por ejemplo, si una sucesión de matrices An converge hacia la matriz A en p-norma: An A p 0 , 65 entonces dicha sucesión también converge hacia A en q-norma. Especificamos las constantes C y K en (1.6.11) para algunas normas particulares: A2 A 1 n 1 n 1 n A F A A1 A n A2 2 2 (1.6.12) n A n A1 (1.6.13) (1.6.14) A n max max aij A 2 n max aij A n max 1i , j n (1.6.15) 1i , j n A Ejemplo 1.6.6. Demostremos que A 2 2 A1 A (1.6.16) A F . En efecto, usando (1.2.14) y la desigualdad de Schwarz, obtenemos Ax 2 2 n i 1 2 n a j 1 ij xj n n i 1 j 1 n 2 a ij x j j 1 2 x 2 2 n n i 1 j 1 2 a ij x 2 2 A 2 F Tomando en cuenta (1.6.2), llegaremos a la estimación necesaria. ■ Demostramos ahora dos afirmaciones útiles. Teorema 1.6.4 (Marchuk, 1982). Sea A una matriz semidefinida positiva y sea 0 una constante. Entonces E A1 2 1 (1.6.17) Demostración. Debido a la definición de la norma euclidiana (1.2.14) y la del producto escalar (1.2.6), tenemos 66 E A 1 2 E A max 1 x 0 2 E A x, 1 x (1.6.18) x, x Introduciendo elementos nuevos y por y E A x 1 (1.6.19) obtenemos E A 2 1 2 y, y max E A y, E A y y 0 Ay, y Ay, Ay min 1 2 2 y 0 y, y y, y Ya que 1 . (1.6.20) Ay, y 0 , la desigualdad (1.6.17) es válida. ■ Corolario 1.6.1. Si la matriz A es definida positiva y 0 , entonces E A1 2 1. (1.6.21) Teorema 1.6.5 (Lema de Kellogg). Sea A una matriz semidefinida positiva y 0 una constante. Entonces E AE A1 2 1. (1.6.22) Demostración. Denotamos por T E AE A . Según la definición de la norma euclidiana 1 (1.2.14) y la del producto escalar (1.2.6), tenemos T 2 2 max x 0 Tx x 2 2 2 max 2 67 x 0 Tx , Tx x, x E A y, E A y E A y, E A y max y 0 (1.6.23) donde y se define por (1.6.19), por lo tanto T 2 2 max y 0 y, y 2 Ay, y 2 Ay , Ay y, y 2 Ay, y 2 Ay , Ay 1. El lema queda demostrado. ■ Corolario 1.6.2. Si la matriz A es definida positiva y 0 , entonces E AE A1 2 1. ■ (1.6.24) Los lemas 1.6.1 y 1.6.2 se usarán en el estudio de la estabilidad de varios esquemas numéricos implícitos. Teorema 1.6.6 (Horn y Johnson, 1999). Sea A una matriz n n . La seria de potencias ak Ak converge si existe una norma matricial tal que la serie numérica k 0 N o por lo menos sus sumas particulares S N ak A k a k 0 k A k converge, representan una sucesión acotada. ■ k 0 Corolario 1.6.3. Una matriz n n A es invertible si existe una norma matricial tal que E A 1 . En este caso, A1 ( E A) k . k 0 Demostración. Si E A 1 entonces la serie ( E A) k converge hacia una matriz C, ya que el k 0 radio de convergencia de la serie numérica z k es igual a 1. Tomando en cuenta la fórmula 68 N N k 0 k 0 A ( E A) k E ( E A) ( E A) k E ( E A) N 1 E cuando N , deducimos que C A1 . ■ La siguiente afirmación es equivalente al corolario 1.6.3. Corolario 1.6.4. Si A 1 en una norma matricial, entonces la matriz E A es invertible y ( E A) 1 Ak . ■ k 0 Corolario 1.6.5. Sea A una matriz diagonal estrictamente dominante: aii n j 1, j i aij , i 1,2,..., n . (1.6.25) Entonces la matriz A es invertible. Demostración. Debido a (1.6.25), aii 0 para cada i, y la matriz diagonal D diag a11, a22 ,..., ann es invertible. La matriz B E D 1 A tiene los elementos nulos en su diagonal principal, mientras que los elementos no diagonales son bij aij / aii . Por eso, B 1 , y la matriz E B D 1 A es invertible debido al corolario 1.6.5. Entonces, A también es invertible. ■ Ejercicios: 1. Demuestre que Ax A x . 2. Sea función A una norma matricial. Demuestre que A B A B . 3. Demuestre que la función a ij es la norma matricial. i, j 4. Demuestre que A 2 ( AA* ) donde ( AA* ) es el radio espectral de la matriz AA* . 5. Sea U una matriz unitaria. Demuestre que U 2 1. 69 6. Sea A una matriz normal. Demuestre que A 2 ( A) . 7. Demuestre que se puede definir la norma matricial mediante las siguientes fórmulas equivalentes: Ax Ax A max Ax max Ax max max . x 1 x 1 x 0 x 1 x x 8. Demuestre que AB 9. Cuando A F A 2 B F y AB F A F B 2 para todas las matrices A y B. A1 ? 10. Sean i eigenvalores de una matriz cuadrada A de orden n. Demuestre que det A 1 n . 11. Encuentre matrices A and B para las cuales ( A B) ( A) ( B) . Esto demuestra que ( A) no puede ser una norma matricial. 12. Sea A una matriz no singular. Demuestre que A 1 1 A para cualquier eigenvalor de la matriz A. 13. Demuestre que ( A) A para cualquier norma asociada. 70 1.7. Problemas al capítulo 1 1. Sea la función x una norma vectorial. El conjunto de vectores para los cuales x x0 r es una esfera con el centro x0 y radio r. Demuestre que la esfera es un conjunto convexo, es decir, si x y y son dos vectores arbitrarios de la esfera entonces z tx (1 t ) y también pertenece a la esfera para cualquier número t del segmento 0 t 1 . 2. Sea p>1 un número natural. Demuestre la desigualdad de Minkowski: x y p x p y p [Indirecta: Utilice la identidad ( x i i yi ) xi ( xi yi ) p p 1 i yi ( xi yi ) p 1 i y aplique dos veces la desigualdad de Hölder]. 3. Sean X y Y dos espacios vectoriales con normas x, y x X y Y X y Y , respectivamente. Demuestre que es la norma en el espacio vectorial X Y que es el producto directo de X yY. 4. Vectores u1 , u2 ,..., un se llaman ortonormales si son ortogonales: ui , u j 0 , y además, ui 1 . Usando la ortogonalización de Gram-Schmidt (1.2.10), construye la base ortonormal para los vectores u1T (1,0,1) , u2T (1,1,0) y u3T (1,0,1) . 5. Demuestre que los vectores u1T (1,1,1,1) , u2T (1,0,1,0) y u3T (1,0,0,1) forman una base en subespacio tridimensional V de R 4 . Aplique la ortogonalización de Gram-Schmidt para construir una base ortonormal en V. 71 6. Demuestre que una matriz cuadrada de dimensión n es ortogonal si y sólo si sus columnas (o filas) forman una base ortonormal en R n . 7. Sea V un subespacio en R n , u1 , u2 , u3 V , u1 u2 , y u2 u3 . Son ortogonales los vectores u1 y u3 ? Construye un contraejemplo. 8. Sea A y B dos matrices unitariamente semejantes, y sea p(x) un polinomio. Demuestre que las matrices p(A) y p(B) también son unitariamente semejantes. En particular A E y B E son unitariamente semejantes para cualquier número . 9. Demuestre que una norma en un espacio lineal X se genera por un producto escalar si y 2 2 2 x y xy 2 x y sólo si la igualdad del paralelogramo 2 cualesquier vectores x y y de X. 10. Demuestre que una matriz tridiagonal 0 0 b1 c1 a b c2 2 2 A0 0 an1 bn1 cn1 0 0 an bn con las propiedades b1 c1 0 , bn an 0 , bi ai ci , y ai ci 0 , i 2,..., n 1 , no es singular. 11. Sea A una matriz diagonal dominante: aii aij i , 1 i n . j i Demuestre que A no es singular, es decir, existe la matriz inversa A 1 . 72 se verifica para [Indirecta: det A d1 d 2 d n , donde d i aii i ]. 12. Sea A una matriz cuadrada. Demuestre que A* A es hermitiana y semidefinida positiva, es decir, sus autovalores son reales y no negativos. 13. Encuentre la matriz simétrica asociada con la forma cuadrática 2 x12 2 x1 x2 2 x22 x1 x3 x32 y diagonalize la forma. 14. Sea A una matriz. Demuestre que A A A* 2 A H 2 para cada matriz 2 hermitiana H. 15. Sean A y B dos matrices (A es no singular) y sea AB=E+P donde E es la matriz identidad. Suponiendo que P es bastante pequeña, estimen la norma A 1 B en términos de B y P . 16. Sea C A T B B D una matriz real y definida positiva, donde C, B y D son matrices cuadradas. Demuestre que la matriz C BT A1B es definida positiva. 17. Sean A y B matrices cuadradas n n . ¿Cuando ( A B)( A B) A2 B 2 ? 18. Sea A una matriz normal. Demuestre que dos eigenvectores x y y que corresponden a distintos eigenvalores son ortogonales en el sentido de que 73 x, y 0 . 19. Sea A HU una matriz compleja donde H es una matriz hermitiana y U es una matriz unitaria. Demuestre que la matriz A es normal si y solo si HU UH . 20. Sean A , B y AB matrices normales. Demuestre que la matriz BA es también normal. 21. Una matriz A se llama singular si det A 0 . Demuestre que una matriz simétrica no singular A tiene única matriz inversa A1 . 22. Sea A una matriz singular. Demuestre que se puede hallar una matriz B con elementos arbitrariamente pequeños tal que A B no es singular. 23. Sean A y B dos matrices simétricas y A B (es decir, A B es semidefinida positiva). Demuestre que A B 0 implica B 1 A1 . 24. Sean A y B dos matrices simétricas y A B . Demuestre que en general la condición A B no implica A2 B 2 . 25. Sea A una matriz real antisimétrica. Demuestre que la matriz E A no es singular. 26. Sea A una matriz real antisimétrica. Demuestre que matriz ( E A)( E A)1 es ortogonal. 27. Sea x un vector real. Demuestre que x, Ax x, A AT x . 2 x y 28. Sea C . Encuentre C 1 . y x 29. Sea H una matriz hermitiana y definida positiva. Demuestre que existe una matriz triangular T tal que H TT * . 74 30. Supongamos que la ecuación Ax b tiene la solución para cualquier vector b . Demuestre que la matriz inversa A1 existe. 31. Sea A una matriz definida positiva. Demuestre que A A1 2 E . 32. Sea B una matriz real y det B 0 . Demuestre que la matriz A BBT es definida positiva. 33. Sea C una matriz compleja y det C 0 . Demuestre que la matriz H CC* es definida positiva. 34. Demuestre que QDQT es definida positive si la matriz Q es ortogonal y D diag{d11 , d22 ,..., dnn } es una matriz diagonal con todos los elementos diagonales positivos: dii 0 . 35. Una submatriz A es una matriz formada por la selección de ciertas filas y columnas de una matriz B más grande. Sea A una submatriz de la matriz B . Demuestre que A p B p . 36. Demuestre que una matriz normal es hermitiana si y solo si todos sus eigenvalores son reales. 37. Demuestre que una matriz normal es unitaria si y solo si el valor absoluto de todos sus eigenvalores es igual a uno. 38. Demuestre que todos los eigenvalores del producto de una matriz hermitiana y una matriz definida positiva son reales. 39. Demuestre que AB F A 2 B F. A 40. Una matriz normal tiene forma A 11 0 A12 . Demuestre que las matrices A11 y A22 son A22 normales, y además, A12 0 . 75 A 40. Demuestre que det 11 0 A12 det A11 det A22 . A22 41. Demuestre que cualquier matriz hermitiana A se puede presentar como A B iC donde B es una matriz simétrica y C es una matriz antisimétrica. 42. Sea A B iC hermitiana. Demuestre que la matriz B C K C B es simétrica. Compare los eigenvalores y eigenvectores de las matrices A B iC y K . 43. Demuestre que las matrices semejantes tienen los mismos eigenvalores. 44. Sean A y B dos matrices ortogonales y det A det B . Demuestre que la matriz A B es singular. 45. Sea A una matriz ortogonal y triangular. Demuestre que A es diagonal. 76 Capítulo 2. Problemas de algebra lineal La necesidad de resolver grandes sistemas de ecuaciones lineales era uno de los motivos principales para el desarrollo de ordenadores. En la sección 2.1, se consideran varios tipos de problemas computacionales que incluyen los sistemas de ecuaciones lineales algebraicas Ax b y AX B ; la búsqueda de la matriz inversa; el cálculo de determinantes; el problema espectral Ax x ; el problema espectral generalizado Ax Cx para una matriz simétrica A y una matriz simétrica y definida positiva C ; los problemas relacionados con desigualdades lineales Ax b . Varias fuentes de dichos problemas computacionales se discuten en la sección 2.2. El capítulo se termina por varios problemas presentados en el apartado 2.9. 2.1. Tipos de problemas computacionales Listaremos ahora los tipos de problemas computacionales considerados en álgebra lineal, o relacionados con ellos. Elegimos a enfatizar estos problemas estándar, porque surgen con tanta frecuencia en la práctica científica y de ingeniería. (Forsythe y Moler, 1967). 1) Sistema lineal de ecuaciones. Resolver el sistema lineal Ax b 77 (2.1.1) donde A es una matriz cuadrada no singular de orden n (real o posiblemente compleja), b es un vector columna dado con n componentes y x es un vector columna desconocido con n componentes. 2) Sistema lineal con múltiples vectores derechos. En el problema anterior se da a veces múltiples vectores b , por ejemplo, k , y también se requiere de encontrar k vectores desconocidos x . Si tomamos como B – matriz n k de lados derechos, y como X - matriz n k de soluciones correspondiente, entonces tenemos que resolver el sistema AX B (2.1.2) donde la matriz A se define en el párrafo 1). 3) Problema de los mínimos cuadrados. Sea A una matriz n k y sean b y x vectores de dimensión n y k , respectivamente. Hay que calcular x que minimiza Ax b , es decir, minimiza vector residual. Si n k entonces tenemos más ecuaciones 2 que incógnitos y el sistema se llama sobredeterminado. En este caso, en general, no podemos resolver el problema Ax b exactamente, y el vector x es la solución por el método de los mínimos cuadrados. Si el rango de la matriz A no es igual a k , rk( A) k , entonces existe un número infinito de soluciones x por el método de los mínimos cuadrados. A veces es necesario encontrar entre ellas la solución x que tiene la norma más pequeño x . Tal vector es siempre único. Y si n k , el sistema se llama indeterminado y va a tener un número infinito de soluciones. 4) Búsqueda de la matriz inversa. Encontrar la matriz inversa A1 de la matriz no singular A . 78 5) Problema espectral. Para una matriz real simétrica dada A , encontrar algunos o todos sus eigenvalores (necesariamente reales), así como, tal vez, los correspondientes eigenvectores x . A veces se pone el mismo problema para una matriz hermitiana A . En este caso, cada eigenvalor es real, pero los eigenvectores x suelen ser complejos. 6) Problema espectral generalizado. Para una matriz simétrica dada A y una matriz simétrica y definida positiva C , encontrar todos o una parte de los eigenvalores generalizados. Un eigenvalor generalizado es el número , de manera que existe un vector x que satisface la ecuación (Watkins, 2007) Ax Cx (2.1.3) A veces también es necesario calcular los correspondientes vectores x . Como C es definida positiva, existe su inversa C 1 . Así, el problema espectral generalizado (2.1.3) es equivalente al problema espectral estándar (2.1.1): C 1 Ax x . Sin embargo, la matriz C 1 A no es necesariamente simétrica. Teorema 2.1.1. Sean A y C dos matrices simétricas n n y C es definida positiva. Entonces el problema espectral generalizado (2.1.3) tiene n eigenvalores reales, y n eigenvectores correspondientes que son ortogonales con respecto al producto escalar x, y C x T Cy . Además, si A es definida positiva, entonces todos los eigenvalores también son positivos. Demostración. Como C es simétrica y definida positiva, existe la factorización de Cholesky C RT R donde R es no singular (véase sección 3.1, Teorema 3.1.2). Entonces el problema espectral 79 Ax RT Rx se puede reescribir como el problema equivalente ( R T AR 1 )( Rx ) ( Rx ) Denotando B R T AR 1 y z Rx , el último problema acepta la forma Bz z Ya que B BT , dicho problema tiene n eigenvalores reales, y los eigenvectores son ortogonales: zi , z j ij . Entonces xi R 1 zi son eigenvalores del problema espectral generalizado (2.1.3), y xi , x j C xiT Cx j ziT R T ( RT R) R 1 z j ziT z j ij Finalmente, si A es simétrica y definida positiva, entonces B es también simétrica y definida positiva y, por lo tanto, todos los eigenvalores son positivos. ■ 7) Problema espectral particular. Para una matriz dada A (real o compleja), encontrar algunos o todos sus eigenvalores y, posiblemente, también los correspondientes eigenvectores. (Incluso para una matriz real A todos eigenvalores pueden ser complejos). Recordemos que para cada eigenvector de la matriz A existe al menos un eigenvector x tal que Ax x (2.1.4) Si la multiplicidad algebraica m del valor es mayor que uno, entonces no necesariamente existen otros eigenvectores correspondientes a independientes de x . 80 y linealmente 8) Problema de los valores singulares. Para una matriz n k dada hay que encontrar un vector de dimensión k y escalar tales que AT Ax x (2.1.5) Este tipo especial del problema espectral es bastante importante para merecer la consideración por separado. Listaremos ahora los tipos de matrices de problemas prácticos (Forsythe y Moler, 1967). Una matriz cuadrada A de orden n se compone de n2 elementos aij . Con matrices de gran tamaño los métodos tradicionales para almacenar la matriz en la memoria de una computadora o para la resolución de sistemas de ecuaciones lineales necesitan una gran cantidad de memoria y de tiempo de proceso. Si sólo unos pocos elementos aij no son cero, la matriz se llama dispersa (sparse matrix). Está claro que usando una codificación correspondiente se puede representar dicha matriz por la cantidad de números reales que es mucho menos que n2 , ya que los elementos nulos no es necesario memorizar. Se han diseñado algoritmos específicos para estos fines cuando las matrices son dispersas. Si la mayoría de los elementos de una matriz no es cero, la matriz se llama matriz densa. La palabra “densidad” se utiliza para denotar la relación entre el número de elementos no nulos a n2 . A veces, incluso si ninguno de los elementos matriciales aij no es cero, dichos elementos pueden ser calculados utilizando un algoritmo simple. Esta matriz recibe el 81 nombre de matriz generador, y sus n2 elementos no requieren almacenamiento en la memoria del ordenador. Si, por el contrario, los elementos de la matriz se representan como n2 números reales, la matriz se llama almacenada. Y no importa si algunos elementos son iguales a cero, ya que los ceros también es necesario recordar. Del gran interés son matrices de banda. En matemáticas, a una matriz se le llama matriz de banda cuando es una matriz donde los valores no nulos son confinados en un entorno de la diagonal principal, formando una banda de valores no nulos que completan la diagonal principal de la matriz y más diagonales en cada uno de sus costados. Escrito formalmente, una matriz cuadrada A {aij } de orden n es una matriz banda si todos sus elementos son cero fuera de una zona diagonal cuyo rango se determina por las constantes k1 0 y k2 0 : aij 0 si k2 j i k1 (2.1.7) Los valores k1 y k 2 determinan el semiancho de banda izquierdo y derecho respectivamente. El ancho de banda de una matriz es k1 k2 1, y se puede definir como el número menor de diagonales adyacentes con valores no nulos. Una matriz banda con k1 k2 0 es una matriz diagonal. Una matriz banda con k1 k2 1 es una matriz tridiagonal; cuando k1 k2 2 se tiene una matriz pentadiagonal y así sucesivamente. Una matriz banda con k1 k2 p , dependiendo del número p, se le puede llamar matriz p-banda, formalmente se puede definir como aij 0 si i j p; 82 p0 (2.1.8) Una matriz con k1 0, k2 n 1 , se obtiene la definición de una matriz triangular inferior. De forma similar, para k1 n 1, k2 0 , se obtiene la definición de una matriz triangular superior. Ejercicios: 1. Definición. La matriz permutación es la matriz cuadrada con todos sus n n elementos iguales a cero, excepto uno cualquiera por cada fila y columna, el cual debe ser igual a uno. Ejemplo: 1 0 0 0 1 0 , 0 0 1 0 1 0 0 0 1 , 1 0 0 0 0 1 1 0 0 0 1 0 2. Definición. Una matriz cuadrada A se llama reducible si existen matrices permutaciones tales que la matriz obtenida de A por permutaciones es la matriz por bloques de forma B 0 B C o C D 0 D . donde B y D son submatrices cuadradas (bloques) y 0 es la matriz nula. 3. Definición. Una matriz cuadrada A se llama irreducible si A no es reducible. 4. Demuestre que una matriz irreducible y de diagonal dominante no es singular. 83 2.2. Fuentes de problemas computacionales Sobre la base de la clasificación de problemas de álgebra lineal computacionales dada en la sección anterior, indicamos ahora algunas fuentes de dichos problemas. Solución de sistemas de ecuaciones algebraicas lineales Ax b (2.2.1) (problema 1 de la sección 2.1), al parecer, es el más común problema en un centro de cómputo. Un matemático aplicado a menudo debe elegir algunos parámetros en el procesamiento de datos. Por ejemplo, se puede interpolar una función utilizando sus n valores dados con ayuda de un polinomio. En este caso, los n coeficientes del polinomio representan dichos parámetros. Dado que los coeficientes afectan los valores del polinomio de manera lineal, el problema de interpolación se reduce a resolver un sistema de ecuaciones algebraicas lineales. En las tareas más complejas, en las que los parámetros se entran no linealmente, se obtienen las ecuaciones no lineales. Sin embargo, una forma típica de la solución de un sistema no lineal de ecuaciones es su linealización y la posterior resolución del sistema linealizado, es decir, de nuevo el problema 1 en la sección 2.1. La fuente más común de un sistema de ecuaciones lineales es la aproximación de una ecuación continua por un problema de diferencias finitas. Por ejemplo, el problema de Dirichlet para el operador diferencial Laplace puede ser aproximado por un gran sistema de simples ecuaciones en diferencias finitas. La matriz asociada a las ecuaciones en diferencias, casi siempre es grande y dispersa. 84 La segunda fuente muy importante de los sistemas de ecuaciones lineales es la solución de problemas lineales por el método de los mínimos cuadrados. Supongamos que la matriz A , tal como se define en el problema 3 de la sección 2.1 tiene rango k . Se demuestra a continuación que la matriz AT A también tiene rango k y, por lo tanto, es no singular y definida positiva. A continuación, la tarea es minimizar la expresión Ax b 2 ( Ax b )T ( Ax b ) xT AT Ax 2xT AT b b T b ( AT Ax AT b )T ( AT A) 1 ( AT Ax AT b ) b T A( AT A) 1 AT b b T b (2.2.2) El lector puede verificar estas ecuaciones por simple multiplicación. Como ( AT A)1 es la matriz definida positiva, el mínimo en (2.2.2) se alcanza cuando AT Ax AT b 0 , es decir, cuando x satisface la ecuación normal AT Ax AT b (2.2.3) Esta ecuación es el problema 1 de la sección 2.1. Para demostrar que AT A tiene rango k , probaremos un resultado más general, a saber, que rk( AT A) rk( A) (2.2.4) donde rk(C) es el rango de la matriz C . Utilizamos el siguiente teorema Teorema 2.2.1 (Forsythe y Moler, 1967). Sea A una matriz real n k de rango r . Entonces existen matrices ortogonales U y V de orden n y k , respectivamente, tales que U T AV es la matriz n k de forma 85 1 D donde 1 2 2 r 0 0 0 0 (2.2.5) r 0 son valores singulares de A . Según el teorema 2.2.1, U T AV D (2.2.6) y A UDV T . Por lo tanto, AT A (VDTU T )UDV T VDT DV T (2.2.7) Obviamente, las matrices DT D y D son del mismo rango r y, debido a (2.2.7), se obtiene que rk( AT A) rk( A) . El sistema de ecuaciones lineales que surge de la ecuación normal (2.2.3) por lo general tiene una orden pequeña y su matriz es densa. Sin embargo, el uso de la ecuación normal no es siempre la forma más eficaz y precisa para resolver el problema por el método de los mínimos cuadrados (Golub, 1965; Buzinger y Golub, 1965; Golub y Kahan, 1965). A menudo el problema que conduce a un sistema de ecuaciones lineales, se caracteriza por la misma relación funcional pero por diferentes datos. Por ejemplo, un sistema de ecuaciones en diferencias finitas puede tener varias versiones de las condiciones de contorno para las mismas ecuaciones en el dominio interno, o la transformación de los datos por el método de los mínimos cuadrados se puede hacer para una serie de vectores dados b bajo los mismos parámetros reguladores que forman la matriz A . Estas 86 situaciones conducen a sistemas de ecuaciones lineales (2.1.2) de la forma AX B , es decir, al problema 2 de la sección 2.1. La búsqueda de la matriz inversa A1 de una matriz no singular A (problema 4 de la sección 2.1) es más común en los cálculos estadísticos, en los que la matriz inversa es importante en sí mismo para la evaluación de ciertos parámetros estadísticos. En la mayoría de otros problemas prácticos, la búsqueda de la matriz inversa A1 no es realmente necesaria, aunque puede ser de gran interés su norma. Si para una matriz dada A hay muchas partes derechas b , entonces la matriz inversa A1 es en realidad “el operador de influencia”, que transforma directamente b en la solución x del sistema Ax b , es decir, x A1b . Por esta razón a menudo es deseable de antemano calcular A1 de manera que un nuevo vector b se transforma en x mediante la 1 aplicación A al vector b . Sin embargo, si la matriz A es dispersa, su inversa A es comúnmente densa. Por lo tanto, aunque A puede ser almacenado en un pequeño volumen 1 de memoria, la matriz inversa A requiere demasiada memoria. Afortunadamente, hay maneras de almacenamiento de datos en la que el vector A1b para un determinado b se 1 puede calcular de forma rápida sin tener que memorizar los elementos de la matriz A y 1 con menos errores de redondeo que genera la multiplicación de A por el vector b . El problema 7 de la sección 2.1 por lo general se produce cuando se resuelve un sistema de ecuaciones diferenciales ordinarias homogéneas lineales con coeficientes constantes. Si imaginamos tal sistema en la forma dz Az , donde z (t ) es un vector ndt dimensional, entonces intento de encontrar una solución exponencial en la forma 87 z (t ) x exp(t ) donde x es un vector n-dimensional constante, conduce directamente a un problema de tipo 7 para determinar . De la misma manera, un sistema de segundo orden A d 2z dz B Cz 0 2 dt dt (2.1.8) conduce a un problema de tipo 7. Este sistema es particularmente común en el estudio de los sistemas dinámicos no conservativos tales como los sistemas de control automático, donde hay un flujo de energía y cuando no hay seguridad de que el sistema será estable. Los procesos que tienen lugar en sistemas mecánicos, se describen por sistemas de tipo (2.1.8), donde A es la matriz de las masas (coeficientes inerciales), B es la matriz de los coeficientes de las resistencias, y C es la matriz que caracteriza las fuerzas. En muchos problemas B 0 , mientras que A y C son matrices simétricas y definidas positivas. A continuación, el sistema (2.1.8) toma la forma A d 2z Cz 0 dt 2 (2.1.9) Sea z (t ) x exp(it ) donde x es un vector n-dimensional constante y es la frecuencia de las oscilaciones propias del sistema. Como resultado, se obtiene el sistema 2 Ax Cx 0 (2.1.10) o, si suponemos que 1/ 2 , Ax Cx (2.1.11) es decir, el problema 6 de la sección 2.1. En muchos casos, la matriz de las masas A es la matriz identidad. A continuación, por lo general consideran 2 y reciben un problema común de encontrar los valores propios (problema 5 de la sección 2.1) 88 Cx x (2.1.12) donde la matriz C es definida positiva. Ejemplo 2.1.1. Consideremos en un espacio de Hilbert el problema de la mejor aproximación media cuadrática de una función f (x) por un polinomio generalizado m m ( x) ci i ( x) , (2.1.13) i 0 de grado m formado por un sistema de funciones básicas i ( x )i 0 . Se plantea el problema m de hallar los coeficientes ci del polinomio (2.1.13) que minimiza la distancia ( f , m ) f m f m , f m 1/ 2 (2.1.14) Dicho problema tiene una sola solución que se obtiene al resolver el sistema de ecuaciones algebraicas lineales m c i i , j f , j , ( j 0,1,2,, m) (2.1.15) i 0 Ejercicios: 1. Encuentre en el intervalo 0, el polinomio 1 ( x) c0 c1 x de la mejor aproximación media cuadrática para la función f ( x) sen x cos x . [Indirecta: para el cálculo de los productos internos x sen x dx sen x x cos x , y x cos x dx cos x x sen x ]. 3 2. Construye el polinomio de la mejor aproximación media cuadrática 3 ( x) c j Pj ( x) j 0 para la función f ( x) 3 ( 1 x 1 ). x 3. En el método puntual de cuadrados mínimos se minimiza la distancia 1/ 2 ( f , m ) f m n f ( xi ) m ( xi )2 i0 89 que se calcula mediante la suma de los cuadrados de desviaciones del polinomio m (x) de la función f (x) en los puntos xi . Usando el método puntual de cuadrados mínimos en el intervalo 0, aproxime la función trigonométrico 1 ( x) c0 c1 cos x x4 . f ( x) 1 x 2 / 2 por un polinomio en los puntos x0 0 , x1 2 , x2 , x3 , 3 2 3 [La solución: 1 ( x) 0.64 0.47 cos x ]. 4. Aproxime la función f (x ) e x por un polinomio lineal 1 ( x) a bx en el segmento 1,1 a fin de minimizar la distancia (e x , 1 ( x)) max e x 1 ( x) . x 1,1 5. Sea g ( x ) 0 en 0,1 , y sea f n ( x ) no nula solo en un segmento A, B de longitud 1 / n 3 , donde su valor máximo es igual a n (Fig.2.1.1). Demuestre que 1 ( f , g ) max f ( x) g ( x) max f ( x) n x0,1 x0,1 y 1/2 1 1 2 2 ( f , g ) f ( x) g ( x) dx 0 n 0 cuando n . Así, las distancias 1 ( f , g ) y 2 ( f , g) no son equivalentes. Fig.2.1.1. Gráfico de f n ( x ) en el intervalo 0,1 . 90 2.3. Número de condición de una matriz El determinante de una matriz A es una de sus características más importantes. Por ejemplo, si la matriz A es singular, es decir, si det A 0 entonces el sistema Ax b no tiene ninguna solución. Los eigenvalores de la matriz A también pueden dar información valiosa sobre sus propiedades. En esta sección, se introduce otra característica importante de la matriz, llamada el número de condición. Pero antes consideremos tres ejemplos instructivos. Ejemplo 2.3.1 (W. Kahan). Sea Ax b (2.3.1) el sistema de ecuaciones lineales con . 0.8648 12969 A , y . 0.2161 01441 0.8642 b 0.1440 (2.3.2) Denotemos el término residual r b Ay , donde y es una solución aproximada. Ya que r 0 para la solución exacta x A 1b , es natural suponer que y es buena aproximación de la solución exacta cuando el término residual r es muy pequeño. Sin embargo, esto no es siempre una buena idea. Por ejemplo, para la matriz (2.3.2) esta suposición no es cierta. En efecto, elegimos y (0.9911, 0.4870) T . En este caso el vector residual es r (10 8 , 10 8 ) T , es decir, muy pequeño. No obstante, el vector y queda lejos de la solución exacta x (2, 2) T . ■ Ejemplo 2.3.2. Consideremos el sistema lineal (2.3.1) con 0.780 0.563 A , y 0.913 0.659 91 0.217 b 0.254 (2.3.3) Si elegimos y1 (0.341, 0.087) T como una solución aproximada, entonces el término residual es . ) T como otra solución aproximada, entonces el r1 (10 6 , 0) T . Y si elegimos y2 (0.999, 1001 término residual es r2 (0.0013... , 0.0015... ) T . Al comparar r1 con r2 concluimos que el vector y1 aproxima la solución exacta x mejor que y2 . No obstante, la solución exacta es (1,1) T y, en realidad, el vector y2 es la mejor aproximación entre dos vectores. ■ Se dice que un sistema de ecuaciones lineales está mal acondicionado cuando pequeña perturbación en el sistema puede producir cambios relativamente grandes en la solución exacta. De lo contrario, se dice que el sistema está bien acondicionado. Surge la pregunta, “¿Por qué un sistema mal condicionado es tan inestable?” Es fácil visualizar que ocurre en un sistema mal condicionado, en el caso de dos ecuaciones. Geométricamente, dos ecuaciones representan dos líneas directas, y el punto de intersección es la solución del sistema. Un sistema mal condicionado representa dos líneas directas que son casi paralelas. En este caso, si la inclinación de una de las líneas se cambia sólo ligeramente, entonces el punto de intersección se altera drásticamente (Fig.2.3.1). Fig.2.3.1. Impacto de una perturbación pequeña en b . 92 Con el fin de demostrar que el muy pequeño término residual r b Ay no siempre garantiza la proximidad de la solución aproximada y a la solución exacta x A 1b , consideraremos un ejemplo más. Ejemplo 2.3.3 (Maubach, 2005). El sistema (2.3.1) es 2 2 con la matriz 1 0 A 0 donde 0 es un número muy pequeño. Sea w y x . Tenemos Ay b 2 A( y x ) w* ( A* A)w w12 2 w22 2 ( y1 x1 ) 2 2 ( y2 x2 ) 2 Por lo tanto Ay b a implica ( y1 x1 ) 2 ( y2 x2 ) 2 1, a2 a 2 2 es decir, todas las soluciones aproximados y cuyas términos residuales son Ay b a pertenecen a un elipse con los radios a y a / . Por ejemplo, tanto y1 ( x1 a, x2 )T como y2 ( x1 , x2 a 1 )T corresponden al término residual Ay b a , pero y1 x a De un lado, det A a 1 y2 x . 1 . Veremos más adelante que la matriz A es mal condicionada, ya que su número de condición en la norma espectral es enorme 2 ( A) 1 . ■ Explicaremos ahora la inestabilidad de la solución en un sistema mal condicionado (Forsythe et al., 1977; Ciarlet, 1995). Supongamos que la matriz del sistema (2.3.1) es no singular ( det A 0 ) 93 y b 0 . En este caso, el sistema tiene una sola solución x 0 . Analicemos ahora un sistema perturbado A(x ) b donde (2.3.4) y son los errores absolutos de la solución x y vector b , respectivamente. Claro que A , y A 1 . (2.3.5) Dividiendo el error relativo / x en la solución entre el error relativo / b en el vector b , y usando (2.3.1) y (2.3.5) obtenemos A 1 b / x Ax 1 A A , x x / b (2.3.6) Definición 2.3.1. Sea A una matriz. El número A A1 , si A no es singular ( A) cond A , si A es singular (2.3.7) se denomina número de condición de la matriz A. ■ Se deduce de (2.3.6) y (2.3.7) que ( A) , x b (2.3.8) es decir, el error relativo de la solución del problema (2.3.1) se estima mediante el error relativo del vector b multiplicado por el número de condición de la matriz. Por eso, cuando ( A) es pequeño o moderado, el error / x en la solución del problema (2.3.1) está acotado y depende continuamente 94 del error / b en b en el sentido de que / x tiende a cero junto con / b . En esta situación, la matriz A (y por consiguiente, el sistema (2.3.1)) se llama bien condicionada. Sin embargo, si el número de condición de la matriz A es muy grande (por ejemplo, 10 20 o 10 30 ), entonces el error en la solución / x ya no es controlable a pesar de que el error / b es muy pequeño (por ejemplo, 10 10 ). En la última situación, el sistema (2.3.1) y su matriz A se llaman mal condicionados, y es posible esperar problemas graves con la precisión de la solución calculada. Se puede demostrar que el número de condición (2.3.7) es también una característica importante en la evaluación de la respuesta del sistema (2.3.1) a errores en la matriz A. En efecto, supongamos que b es exacto, pero A contiene un error A : ( A A)( x ) b Así, en lugar de la solución exacta x A 1b , tenemos una solución aproximada x A A b , o { A A A1}b . Sustituyendo 1 1 B A A en la identidad B 1 A 1 A 1 ( A B )B 1 , obtenemos A1 A A A b A1 A( x ) 1 Por lo tanto, A1 A x . Se deduce que x ( A) A A Así, el error relativo en la solución se limita arriba por el error relativo en la matriz A multiplicado por el número de condición (2.3.7). 95 Ahora es posible contestar la pregunta sobre el comportamiento extraño de las soluciones en los ejemplos 2.3.1 y 2.3.2. En efecto, lo que pasa en dichos ejemplos se debe a la condicionalidad mala de las matrices (2.3.2) y (2.3.3), y de acuerdo con la estimación (2.3.8), un error pequeño en el vector b produce un error bastante grande en la solución. Ejemplo 2.3.4. Sea A una matriz simétrica, no singular. Debido a (1.7.4), la 2-norma (o norma espectral) de A es A 2 max i . Como 1i n A A 1 1 A1 , la matriz inversa también es simétrica. Además, 1 1 2 1 1 min A1 x, A1 x min Ay, Ay A1 max A x , A x x 1 y 1 2 x 1 1 1 2 min A y , y , 2 y 1 min i 1i n Así, el número de condición de una matriz simétrica A en la norma espectral es 2 ( A) max i ( A) / min i ( A) i i (2.3.9) y se llama número de condición espectral de A. ■ La fórmula (2.3.9) es válida para qualquier matriz normal no singular. Ejemplo 2.3.5. Demostramos que cualquier matriz unitaria n n está perfectamente condicionada en la norma espectral. En efecto, sea U una matriz unitaria, es decir, UU 1 E . Debido a que la norma espectral tanto de U como de U 1 U * son iguales a uno, el número de 96 condición espectral de U es (U ) 2 (U ) U 2 U 1 2 1 . Sin embargo, se puede demostrar que en la norma de Frobenius, el número de condición de cada matriz unitaria es igual a n. ■ Se puede demostrar que para la norma espectral, la igualdad 2 ( A) 1 se cumple si y solo si A Q o A U , donde es un número, Q es una matriz ortogonal y U es una matriz unitaria. Por el teorema 2.4.3, 2 ( A) 2 (QAU ) y F ( A) F (QAU ) donde 2 ( A) y F ( A) son los números de condición de una matriz A , calculados usando la norma espectral y la norma de Frobenius, respectivamente, y Q y U son matrices ortogonales o unitarias. Las siguientes desigualdades tienen lugar (Voevodin y Kuznetzov, 1984): max{ ( A) ( B) , } ( AB) ( A) ( B) ( B) ( A) Ejemplo 2.3.6. La matriz de Hilbert 1 12 1 1 3 H n hij 2 1 1 n n1 1 n1 , 1 2 n1 1 n (2.3.10) Es una matriz simétrica cuyos elementos se definen como hij 1 . i j 1 Consideremos ahora un problema donde aparecen las matrices de Hilbert. Supongamos que se requiere aproximar en el intervalo 0 x 1 una función f ( x) por un polinomio algebraico n c x i 1 i 97 i 1 con el objetivo de minimizar el error de aproximación 2 n e ci xi 1 f ( x) dx 0 i 1 1 Dicho error se minimiza bajo las condiciones e 0 ci (i 1,..., n) Del último sistema se obtiene 1 1 i j 2 dx c j f ( x) xi 1dx x j 1 0 0 n (i 1,..., n) o bien, el sistema n h j 1 ij c j bi (i 1,..., n) 1 donde bi f ( x) xi 1dx se definen por la función dada f ( x) (i 1,...,n ), y hij 1/ (i j 1) es el 0 elemento de la matriz de Hilbert (i, j 1,..., n) . Horn y Johnson (1999) mencionan que el número de condicion de H n empeora cuando la dimensión n aumenta y asintoticamente coincide con la función exponencial e cn , donde la constante c es aproximadamente igual a 3.5. Por ejemplo, ( H 3 ) ~ 5 10 2 , ( H 6 ) ~ 1.5 10 7 , ( H 8 ) ~ 1.5 1010 , es decir, crece como e3.5n . Notemos que la norma de Frobenius H n aumenta, ya que Hn 2 F n 1 , k 1 k 98 F tiende a infinito cuando n y la serie del lado derecho diverge. Sin embargo, para el radio espectral ( H n ) es válida la estimación 1 ( H n ) O log n cuando n . Así, a pesar de que los elementos de H n son uniformemente acotados en n y el radio espectral ( H n ) no es grande, la matriz es mal condicionada cuando n es grande. Se puede explicar este fenómeno si tomamos en cuenta que H n es simétrica y, según el ejemplo 2.3.4, su número de condición espectral es 2 ( H n ) ( H n ) / min i ( H n ) i Entonces el eigenvalor mínimo ( H n ) min i ( H n ) de la matriz de Hilbert tiende a cero cuando i n . ■ Según (2.3.7), el número de condición ( A) depende de la norma matricial elegida. Por ejemplo, p ( A) A A 1 p p (2.3.11) si se usa p-norma (1.7.2). Notemos que p ( A) A p A1 p AA1 p E p E 2 1. (2.3.12) Además, en virtud de la equivalencia de las normas matriciales, (véase (1.7.11)), obtenemos C 2 p ( A) q ( A) K 2 p ( A) 99 (2.3.13) donde C y K son las constantes universales positivas de (1.7.11) que dependen sólo de las normas elegidas y no dependen de A. Así, los números de condición de una matriz A calculados en dos normas diferentes, también son equivalentes, es decir, si A es bien (o mal) condicionada en una norma y las constantes C y K no son enormes, entonces, según (2.3.12), A también es bien (mal) condicionada en otra norma. Ejercicios: 1 1. Sea A( ) una matriz donde 0 . Demuestre que A( ) se hace mal condicionada 1 cuando se aproxima a cero. [Indirecta: Hay que construir la matriz inversa A1 ( ) , y usando la n norma matricial A max aij , demuestre que ( A) 1 1i n j 1 1 ]. 5 7 3 2. Encuentre 1( A) , 2 ( A) y (A) para la matriz A 7 11 2 . 3 2 6 3. Encuentre (A) para la matriz 1 1 1 A 1 10 100 . 1 100 10000 Demuestre que el numero de condición de la matriz A se puede mejorar mediante escalar A por una matriz diagonal D. Calcule (DA) para D diag1 / 3, 1/ 111, 1 / 10101 . 4. Compare la solución del sistema: 5.3433 x 4.1245 y 3.1417 5.3432 x 4.1244 y 3.1416 con la del sistema 5.343 x 4.124 y 3.142 5.343 x 4.124 y 3.142 que se obtiene mediante omitir la última cifra de la mantisa en todos los coeficientos. ¿Que número de condición tiene la matriz del sistema original? [La solución del primer sistema es x 2.5776, y 2.5776 , mientras que el segundo sistema tiene número infinito de soluciones]. 100 5. Sea A una matriz no singular. Demuestre que ( A1 ) ( A) . 6. Demuestre que una matriz normal es unitaria si y sólo si el módulo de cada su eigenvalor es igual a uno. 7. Demuestre que una matriz normal es hermitiana si y sólo si todos sus eigenvalores son reales. 8. Demuestre que una matriz normal es antihermitiana si y sólo si todos sus eigenvalores son puros imaginarios. 9. Demuestre que ( A) max i ( A) / min i ( A) para qualquier matriz no singular y respecto a i i cualquier norma matricial. 10. Sea 0 , y 1 1 A . 1 1 Demuestre que (A) es proporcional a 1 respecto a cualquier norma matricial. Demuestre, sin embargo, que cuando 0 , entonces la razon max i ( A) / min i ( A) es del i i orden 1, es decir, para una matriz no normal, la razon de eigenvalores no puede servir como una estimación del número de condición. 11. Determine (A) de la matriz del Ejemplo 2.3.2 tomando en cuenta que 659000 563000 A1 . 913000 780000 12. Demuestre que ( A) (aA) donde a es un número complejo. 13. (Meyer, 2000). La solución exacta del sistema .835x .667 y .168 .333x .266 y .067 es x 1, y 1 . Demuestre que la perturbación de b2 de b2 .067 a b2 .066 cambiará drásticamente la solución exacta: x 666, y 834 . 101 2.4. Estimación del número de condición Notemos que la solución x A 1b del problema Ax b es equivalente a la búsqueda de la matriz inversa A 1 . A pesar de que es útil estimar el número de condición ( A) A A 1 de la matriz A, en el caso general es un problema difícil, ya que el segundo factor A1 está desconocido (la matriz inversa A 1 está desconocida). Por lo tanto, cualquier método de estimar el número de condición es muy importante. En la sección presente consideramos algunos métodos para estimar el número de condición. Ejemplo 2.4.1. Calculemos el número de condición de la matriz triangular de Toeplitz 2 1 1 2 T 0 0 0 0 0 0 0 2 1 1 2 0 (2.4.1) de orden n. La matriz es simétrica y definida positiva, es decir, todos sus eigenvalores son positivos. Es bien conocido que los eigenvalores de T se hallan mediante la fórmula k (T ) 2(1 cos k ) 2(1 cos kh) n 1 (2.4.2) donde h / (n 1) (Smith, 1978). Usando (2.4.2) obtenemos (T ) 1 (T ) 2(1 cos h) , Ya que (T ) n (T ) 2(1 cos nh) (2.4.3) cos (n 1)h cos 1, y por lo tanto, cos nh cos n / (n 1) cos h , según (2.3.9), tenemos 2 (T ) 102 1 cos h 1 cos h (2.4.4) Si h es pequeño, entonces cos h 1 h 2 / 2 , y 2 (T ) 4 h2 O(h 2 ) , 2 h (2.4.5) es decir, la matriz de Toeplitz (2.4.1) es moderadamente mal condicionada. Tales matrices surgen a menudo al aproximar el problema unidimensional de contorno para el operador de Laplace. ■ Determinante y número de condición. Es preciso notar que no hay ninguna correlación entre el determinante y el número de condición de una matriz. Por ejemplo, la matriz diagonal Dn diag (10 1 ,10 1 ,,10 1 ) del orden n es bien condicionada, ya que 2 ( Dn ) 1 para cada n. Sin embargo, det( Dn ) 10 n , es decir, el determinante tiende a cero cuando n aumenta. Así, una matriz casi singular puede ser bien condicionada. Otro ejemplo es la matriz ortogonal aQ de orden n. En efecto, det (aQ) a n det Q a n que se puede hacer arbitrariamente pequeño (si a 1 ) o grande (si a 1 ) a pesar de que la matriz aQ está perfectamente condicionada. Por otro lado, demostremos ahora que la matriz 1 1 1 0 1 1 0 0 1 A 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 1 (2.4.6) del orden n cuyo determinante es uno, es mal condicionada. Examinemos el sistema (2.3.1) con la matriz (2.4.6) y el vector columna b (1, 1, , 1, 1)T con todos sus componentes iguales a 1 , excepto el último componente que es uno. En una forma más detallada, este sistema tiene el aspecto siguiente: 103 x1 x 2 x 3 x n 1 x 2 x 3 x n 1 (2.4.7) x n 1 x n 1 xn 1 El sistema (2.4.7) tiene una solución única x (0, 0, ,0, 1) T que obtenemos usando la sustitución regresiva. Ahora escribimos un método que usa la desigualdad (2.3.8) y a veces permite demostrar que el número de condición ( A) de la matriz A es enorme. Estimación del número ( A) desde abajo. Supongamos que en la sustitución regresiva usada para resolver el sistema (2.4.7) se ha cometido un solo error: en lugar de bn 1 se ha introducido bn 1 , donde 0 es muy pequeño en comparación con la unidad. Entonces, en vez de la solución exacta x del sistema (2.4.7) obtendremos la solución perturbada x del sistema A( x ) b , donde (0, 0, , 0, )T y el error ( 1 , 2 , , n ) T satisface el sistema lineal 1 2 3 n 0 2 3 n 0 (2.4.8) n 1 n 0 n De aquí obtenemos n , n 1 , n 2 2 , n k 2 k 1 , , 1 2 n 2 . En la notación (1.2.15) de la -norma tenemos 104 x max i 2 n2 , i 1, , b 1, (2.4.9) y según (2.3.6) y (2.3.7), ( A) A A 1 / x / b 2 n 2 (2.4.10) Por ejemplo, si n=102, tenemos ( A) 2100 10 30 , y por lo tanto, según la última igualdad en (2.4.10), 2 100 10 30 . Particularmente, si 1015 (es decir, el único error cometido en la sustitución regresiva es muy pequeño), no obstante, el error de la solución hallada es enorme: 10 15 . Estimación del número ( A) desde arriba. Consideremos ahora otro método que tiene la aplicación limitada, pero permite fácilmente evaluar el número de condición ( A) A A 1 desde arriba y, por lo tanto, es muy útil para demostrar que la matriz de un sistema es bien condicionada. Sea Ax b un sistema para resolver. Introducimos otra matriz, B E A , y representamos el sistema original como x Bx b (2.4.11) El método que describimos ahora es válido sólo para un grupo de las matrices A que satisfacen la condición B E A 1 (2.4.12) en una norma matricial. En la seción 4.1, demostraremos el Teorema 4.1.1 que afirma que a condición de que (2.4.12) se cumple, el problema (2.4.11) tiene una solución única x* y 105 x* A 1b b 1 B (2.4.13) para cualquier vector b . El denominador en (2.4.13) es positivo debido a (2.4.12). Se deduce de la Definición 1.6.3 y (2.4.13) que A 1 A1b max b 0 b 1 1 B Por otro lado, A E B E B 1 E . Entonces, según (2.3.7), tenemos ( A) A A 1 1 E 1 B (2.4.14) Ejemplo 2.4.2. Evaluamos el número de condición de la matriz A E B , donde bij 0.8 (1) i j , n 1 i, j n (2.4.15) son los elementos de la matriz B . Tenemos B n n j 1 j 1 0.8 0.8 n max bij i y también, 1/ 2 B2 B F n bij2 j 1 0.8 Por lo tanto, la condición (2.4.12) se cumpla. Entonces, de acuerdo con la fórmula (2.4.14), ( A) (( E B) 11 10 1 0.8 Así, el número de condición de la matriz A es pequeño, y tanto la matriz A como el sistema Ax b están bien condicionados. ■ 106 Números singulares. Sea A una matriz cuadrada. Es fácil demostrar que los eigenvalores i ( A* A) de la matriz hermitiana A* A son no negativos. En efecto, A* A ui i ( A* A) ui . Tomando el producto escalar de cada parte de la última ecuación con el eigenvector ui , obtenemos i ( A* A) ui 2 2 2 i ( A* A) ui , ui i ( A* A) ui , ui A* A ui , ui A ui , Aui Aui 2 , es decir, i ( A* A) 0 . Definición 2.4.1. Sea A una matriz cuadrada. Las raíces cuadradas i i ( A* A) 0 de los eigenvalores de la matriz hermitiana A* A se llaman números singulares de la matriz A. Teorema 2.4.1. Sea A una matriz compleja. Existen matrices unitarias U y V tales que V AU D (2.4.16) donde D diag 1 , 2 ,..., n es la matriz diagonal de los números singulares i i ( A* A) 0 de la matriz A. Si A es una matriz real entonces U y V son matrices ortogonales. Demostración. Sea A una matriz compleja. Según el Teorema 1.4.2, existe una matriz unitaria U tal que U A* AU diag 12 , 22 ,..., n2 (2.4.17) donde i i ( A* A) son números singulares de la matriz A. Designando por c j el vector columna j-ésima de la matriz AU , se puede reescribir (2.4.17) como ci* c j i2 ij , 1 i, j n Sea 1 , 2 ,..., k el conjunto (posiblemente vacio) de los números singulares nulos; entonces c j 0 para j 1,2,..., k . Si definimos los vectores u j j 1 c j para j k 1, k 2,..., n entonces 107 ui* u j ij , k 1 i, j n Usando la ortogonalización de Gram-Schmidt (1.2.10) se puede extender el sistema de vectores u j a una base ortogonal ui* u j ij , 1 i, j n (2.4.18) La matriz V cuya j-ésima columna es el vector u j es la matriz requerida. En efecto, según (2.4.18), es una matriz unitaria. Además, 0 j ij (V * AU )ij ui*c j * j ui u j j ij si 1 j k si k 1 j n . La demostración está sin cambio en el caso cuando A es una matriz real. ■ Simetrización de un sistema de ecuaciones. Consideremos un sistema de ecuaciones lineales Ax b (2.4.19) con una matriz no singular A. Tratando de mejorar la estructura de la matriz del sistema, se puede transformarlo al sistema A* Ax A*b (2.4.20) 2 ( A * A) 2 ( A) , (2.4.21) con la matriz hermitiana A* A . Sin embargo es decir, la simetrización de la matriz A del sistema (2.4.19) sólo aumenta el número de condición de la matriz A* A del sistema nuevo (2.4.20), lo que hace su solución aún más sensible a errores en los elementos de la matriz A y en las componentes del vector b . Demostremos (2.4.21). Según un Teorema 2.4.1, existen matrices unitarias U, V y una matriz diagonal D diag 1 , 2 ,..., n tales que 108 A VDU donde i i ( A* A) 0 son números singulares de la matriz A. Por lo tanto, A* UDV , A1 UD1V y ( A* ) 1 VD1U . Así pués, A* A UDV VDU * UD2U , ( A* A) 1 A1 ( A* ) 1 UD1V VD 1U * UD2U Según el Teorema 1.6.3, transformaciones unitarias no cambian la norma espectral de una matriz A y, por lo tanto, 2 ( A) A 2 A1 2 VDU 2 UD 1V 2 D 2 D 1 . 2 Tomando en cuenta que 2 ( A * A) A* A 2 ( A* A)1 2 UD 2U * D2 2 D2 2 D 2 2 D1 2 UD 2U 2 2 2 y la desigualdad 2 ( A) 1 (véase (2.3.12)) obtenemos 2 2 ( A * A) D 2 D 1 2 22 ( A) 2 ( A) . ■ 2 En la demostración se usa la norma espectral de las matrices. Pero, en la realidad, solo se usa la propiedad de que las transformaciones unitarias no cambian la norma espectral. Según el teorema 1.6.3, las transformaciones unitarias tampoco cambian la norma de Frobenius y, por lo tanto, F ( A * A) F ( A) . Ejercicios: 109 (2.4.22) 1. Encuentre eigenvalores de la matriz 1 1 0, A( ) , 1 1 y su inversa A1 ( ) . Verifique que 2 ( A) ( A) / ( A) es proporcional a 1 , es decir, A es mal condicionada cuando 0 . 1 1 1 2. Sea 0 . Encuentre eigenvalores de la matriz A( ) y su inversa A ( ) . 1 1 1 Verifique que ( A) / ( A) es O(1) , pero (A) es proporcional a . 3. Usando las propiedades de normas matriciales, demuestre que ( A) 1 . 4. Sea A una matriz diagonal, A diag{ d1 ,..., d n } , y sea d i 10 i . Demuestre que 2 ( A) aumenta con n, es decir, la matriz A se hace mal condicionada. 5. Demuestre que (cA) ( A) para cualquiera matriz A y cualquier número c 0 . 6. Demuestre que 2 ( A) 1 si y sólo si A cU , donde c 0 es un número y U es una matriz unitaria. 7. Demuestre que 2 ( A) 2 (VAU ) , donde V y U son dos matrices unitarias. 9. Demuestre que ( AB) ( A) (B) . 110 2.5. Método de las potencias El problema espectral completo de una matriz consiste en la búsqueda de todos sus eigenvalores y eigenvectores. Este problema surge en varios campos de física matemática, por ejemplo, en el estudio de la estabilidad lineal de flujos hidrodinámicos o atmosféricos (vean, por ejemplo, Skiba, 1998; Skiba y Adem, 1998). En general, el cálculo de todos los eigenvalores y eigenvectores es un problema bastante difícil (Wilkinson, 1965). Sin embargo, a menudo en las aplicaciones es necesario conocer sólo eigenvalores de modulo máximo o/y mínimo, o sólo algunos eigenvalores máximos y los eigenvectores correspondientes. Aquí nos detendremos sólo en el método de las potencias para resolver el problema espectral particular, es decir, determinar sólo el eigenvalor de módulo máximo y el eigenvector asociado (Faddeev y Faddeeva, 1963; Ortega y Poole, 1981; Marchuk, 1982; Golub y Ortega, 1992). El método de las potencias, en su forma pura, se utiliza no a menudo. Pero muchos algoritmos modernos explotan explícita o implícitamente este método. Método de las potencias. Supongamos que A es una matriz de dimensión n que tiene un n sistema completo ei i 1 de eigenvectores normalizados de la manera siguiente: ei ei 2 1. (2.5.1) Tenemos Aei i ei i 1,..., n , (2.5.2) donde i es eigenvalor correspondiente a ei . Por ejemplo, tal sistema de eigenvectores siempre existe para cualquiera matriz normal. Además admitamos que 111 1 2 3 n . (2.5.3) es decir, existe un eigenvector dominante 1 de módulo máximo. Sea x0 c1e1 c 2 e2 c n en (2.5.4) c1 0 . (2.5.5) un vector arbitrario no nulo, y Hallamos sucesivamente los vectores xk Axk 1 , k 1,2,3, . (2.5.6) De acuerdo con (2.5.2), tenemos n n n x1 Ax 0 A ci ei ci Aei ci i ei , i 1 i 1 i 1 y, en general, n x k ci ki ei k1 ( c1 e1 k ) , (2.5.7) i 1 donde k k k c2 2 e2 cn n en 1 1 con la particularidad de que, en virtud de (2.5.3), la norma euclidiana k k velocidad 2 : 1 112 tiende a cero con O 2 1 k k 0 , k , (2.5.8) Tomando en consideración (2.5.7), obtenemos x k , x k 1 21k 1 c1 e1 k , c1 e1 k 1 ) 21k 1 c12 c1 e1 , k 1 c1 k ,e1 k , k 1 (2.5.9) La aplicación de la desigualdad de Schwarz conduce a e1 , k 1 e1 k 1 k 1 , k ,e1 k , k , k 1 k k 1 Por lo tanto, debido a (2.5.8) se obtiene x k , x k 1 21k 1 ( c12 O 2 1 k 1 ) (2.5.10) Análogamente obtenemos x m , x m 21m ( c12 O 2 1 m ) (2.5.11) Por consiguiente, la k-ésima aproximación del eigenvalor 1 se calcula por x k , x k 1 ( 1 ) k 1 O 2 x k 1 , x k 1 1 k 1 (2.5.12) Se deduce de (2.5.11) que xk xk , xk 1/ 2 1 113 k ( c1 O 2 1 k ) (2.5.13) y, por lo tanto, la k-ésima aproximación del eigenvector e1 se calcula como e1 k x k / x k sign 1 k sign c1 e1 O 2 1 k (2.5.14) Así pues, debido a las condiciones (2.5.3), el proceso iterativo (2.5.6) permite hallar el eigenvalor dominante 1 (de modulo máximo), y el eigenvector asociado e1 . El error de la k-ésima aproximación a 1 y e1 se determina por medio de las fórmulas (2.5.12) y (2.5.14), respectivamente. Se deduce de (2.5.8), (2.5.12) y (2.5.14) que la velocidad de convergencia del proceso iterativo depende del valor de 2 / 1 y, por lo tanto, es rápida si dicho valor es pequeño y es lenta si él es sólo un poco menor que uno. 1 1 , entonces, según (2.5.13), Observación 2.5.1. Si 1 1 , entonces x k cuando k . Y si x k 0 cuando k . Al realizar los cálculos con una computadora, ambos casos son indeseables. En efecto, en el primer caso puede ocurrir que rebase el límite admisible y, como resultado, se interrumpa el cálculo. En el segundo caso, la norma x k puede convertirse en cero de máquina, y provocar la perdida de información. Para evitar ambas situaciones, es conveniente realizar las iteraciones mediante las fórmulas modificadas, pero equivalentes: e1 0 x0 / x0 , x k A e1 k 1 , ( 1 ) k x k , e1 k 1 , e1 k xk / xk (2.5.15) El algoritmo (2.5.15) ya no tiene los referidos defectos y proporciona el mismo resultado que las iteraciones (2.5.6), (2.5.12) y (2.5.14). ■ 114 Observación 2.5.2. Es poco probable que inicialmente c1 0 , es decir, no se cumple la condición (2.5.5). Pero si sucede, entonces, a expensas de los errores de redondeo, después de unas k iteraciones aparecerá la componente no nula del vector x k que corresponde al eigenvector e1 . ■ Observación 2.5.3. Sea Pn ( t ) a0 a1 t a2 t 2 an t n un polinomio algebraico de grado n, y sea A y B dos matrices, además, B Pn ( A) a0 E a1 A a2 A 2 an A n , donde E es matriz unidad, entonces i (B) Pn ( i ( A)) (2.5.16) donde i ( A) y i (B) son eigenvalores de las matrices A y B, respectivamente. ■ Observación 2.5.4. Si todas las desigualdades (2.5.3) de una matriz cuadrada A son estrictas, entonces el método de las potencias permite calcular todos los eigenvalores (y eigenvectores) de la matriz A. Con este fin, se usa el método de reducción de la dimensión de A. Sean 1 y e1 el eigenvalor y el eigenvector correspondiente calculados por el método de las potencias, y sea S una matriz no singular tal que su primera columna es e1 . Se puede demostrar que S 1 AS 1 0 An1 donde An1 de dimensión n 1 tiene los eigenvalores 2 ,..., n (los mismos que A). Aplicando repetidamente el método de reducción, se puede encontrar otros eigenvalores, ya trabajando con la matriz An1 . Otro método se llama el proceso de deflación. Supongamos que 1 y e1 ya calculamos, y 1 2 3 n . Entonces se puede encontrar 115 2 y e2 aplicando el método de las potencias a la matriz nueva B A 1e1e1T con e1T e1 1 , luego 3 y e3 , etcétera. En efecto, la matriz B satisface la ecuación Aei i ei i 2,..., n . Sin embargo, hay que tomar en cuenta que este método sufre de cualquier imprecisión en el eigenvector e1 , lo que produce cada vez la matriz B todavía más degradada. ■ Consideramos ahora algunos ejemplos de la aplicación del método iterativo (2.5.15). Ejemplo 2.5.1. Aplicaremos el proceso iterativo (2.5.15) en el caso cuando . 2 0.5 15 A 0.5 0 1 , y 15 . 1 1 1 x 0 1 1 Después de 85 iteraciones tenemos 1 85 2.624016 , y 1.000000 e1 85 0.036666 0.403788 La convergencia de iteraciones es muy lenta, debido a que los eigenvalores exactos de la matriz A son 1 2.624015 , 2 2.189657 , 3 0.565641 , y, por lo tanto, la razón 2 / 1 está cerca de uno. ■ Ejemplo 2.5.2. Aplicaremos el proceso iterativo (2.5.15) en el caso cuando 3 1 2 A 4 1 6 , y 1 0 1 1 x 0 1 . 1 Ya después de seis iteraciones obtenemos 1 6 11.344810 , y 116 0.445042 e1 6 0.801938 1.000000 La convergencia de iteraciones es rápida debido a que los eigenvalores exactos de la matriz A son , 2 0515730 , 1 11344810 . . , y, por consiguiente, la razón 2 / 1 3 0170914 . es pequeño. ■ Ejemplo 2.5.3. Calculemos límites espectrales de una matriz simétrica A, es decir, el eigenvalor máximo ( A) max i ( A) , y eigenvalor mínimo ( A) min i ( A) . Utilizando el i i método iterativo (2.5.15), se puede encontrar el eigenvalor de A máximo según el módulo, ( A) . De la misma manera, se puede calcular el eigenvalor máximo según el módulo, ( B ) , de otra matriz simétrica B A ( A) E . Consideremos dos opciones que existen: 1. Si ( A) 0 , entonces ( A) ( A) . Además, de acuerdo con (2.5.16), tenemos que i ( B) i ( A) ( A) 0 para cada i. Por eso, ( B) min i ( A) ( A) , i es decir, ( A) ( B ) ( A) . ( A) 0 , entonces ( A) ( A) . Por lo tanto, ( B ) max i ( A) ( A) , y 2. Si i ( B) ( A) . ■ de nuevo, ( A) Observación 2.5.5. Si la matriz simétrica A tiene dos eigenvalores reales de módulo máximo ( 1 2 max i ), pero de signos opuestos, entonces para distintos vectores iniciales (2.5.4), las i aproximaciones sucesivas ( 1 ) k del proceso iterativo (2.5.15) pueden converger hacia números diferentes. A fin de evitar esta situación es necesario desplazar el espectro de la matriz, es decir, 117 aplicar el método del ejemplo 2.5.1 a una matriz nueva A A cE , donde c es un número no nulo. ■ Observación 2.5.6. Si la matriz A tiene eigenvalores múltiples de módulo máximo, entonces para distintos vectores iniciales (2.5.4), las aproximaciones sucesivas ( 1 ) k del proceso iterativo (2.5.15) convergen hacia un mismo número, pero los eigenvectores e1 k convergen a vectores no colineales. En particular, el caso de dos eigenvalores complejo conjugados ( 1 2 max i y i 1 2 ) se considera en Faddeev y Faddeeva (1963). ■ Ejemplo 2.5.4. Obtenemos la distancia min i ( A) 0 entre un punto dado 0 y el i próximo eigenvalor más cercano de una matriz simétrica A. Este problema surge al estudiar los fenómenos del tipo de resonancia. Examinemos el caso que representa el mayor interés: 0 pertenece al espectro de A: ( A) min i ( A) 0 ( A) max i ( A) i i Sea l max 0 ( A), ( A) 0 . Demostremos que l 1 ( B) donde B E (2.5.17) 1 2 A 0 E es simétrica, y, en virtud de (2.5.16), 2 l i ( B) 1 1 2 ( A) 0 0 2 i l para cada i. Se deduce que ( B) 1 1 ( A) 0 l2 2 1 2 l2 donde ( A) es el eigenvalor de A, inmediato a 0 , es decir, la expresión (2.5.17) es justa. ■ 118 Ejemplo 2.5.5. Calculemos la 2-norma de una matriz A, y de su inversa A 1 . El conocimiento de ambas normas es a menudo indispensable para optimizar un algoritmo numérico, o realizar varias estimaciones teóricas de su estabilidad y/o convergencia. Las siguientes relaciones son válidas: 2 A ( A A) ˆ ( A A) , 2 (2.5.18) 1 A1 ( A A) . (2.5.19) En particular, según (2.5.7), el número de condición de A es ( A) A A1 ( A A) / ( A A) 1/ 2 .■ (2.5.20) Ejercicios: 1. Sea Pn ( t ) a0 a1 t a2 t 2 an t n un polinomio algebraico de grado n, y sea A y B dos matrices; además, B Pn ( A) a0 E a1 A a2 A 2 an A n , donde E es matriz unidad. Demuestre que i (B) Pn ( i ( A)) , donde i ( A) y i (B) son eigenvalores de A y B, respectivamente. 2. Demuestre que una matriz A es no singular si aii a jj aik k i a k j jk para todos i j . 3. Una matriz tridiagonal 0 b1 c1 0 a 0 J 2 0 c n 1 0 0 a n bn del orden n se llama matriz de Jacobi si ai ci 1 0 para i=2,…,n. Demuestre que para cada matriz de Jacobi J existe una matriz diagonal no singular D diag{ d1 ,..., d n } tal que DJD1 es c simétrica. [ d i2 d i21 i 1 , i=2,…,n , donde d1 0 es arbitrario]. ai 4. Una matriz n n , T tij se llama matriz de Toeplitz si cada diagonal contiene elementos iguales: t ij i j , i,j=1,…,n. Por ejemplo, 119 0 0 A 0 0 0 0 es matriz simétrica tridiagonal de Toeplitz, es decir, la matriz de Jacobi. Demuestre que A tiene πj eigenvalores j 2 cos y los eigenvectores correspondientes v j con componentes n 1 2 πjk v j ,k sin , j=1,…,n. Se deduce que dos matrices simétricas tridiagonales de n 1 n 1 Toeplitz del orden n tienen los mismos eigenvectores y, por lo tanto, son conmutativas. 5. Prepare un programa de cómputo para el método de potencia (2.5.15). Pruebe este programa usando las matrices de los ejemplos 2.5.1 y 2.5.2. 120 2.6. Estimación de eigenvalores Para las matrices normales existe una dependencia continua de sus eigenvalores respecto a perturbaciones pequeñas de sus elementos. Por ejemplo, se cumple tanto la estimación max i ( A) i ( B) A B 2 , (2.6.1) i como la desigualdad de Wielandt-Hoffman n ( A) ( B) i i 1 i 2 A B 2 F . (2.6.2) En las desigualdades (2.6.1) y (2.6.2) figuran la norma espectral (1.7.3) y la norma de Frobenius (1.7.1), respectivamente. Además, es valida la afirmación siguiente. Teorema 2.6.1 (de Wielandt-Hoffman). Sean A, B y C matrices normales del orden n, y A C B . Sean i , i y i eigenvalores de A, B y C, respectivamente, numerados de la manera siguiente: i i 1 , i i 1 , y i i 1 . Entonces n i i i 1 2 n i . ■ 2 (2.6.3) i 1 Ejemplo 2.6.1. Los resultados de Wielandt-Hoffman son válidos para las matrices normales. Consideremos ahora una matriz no normal 3 1 2 A 0 4 5 0 0 4.001 121 y demostremos que en este caso, ya no hay dependencia continua de los eigenvalores de la matriz A con respecto a una perturbación pequeña en sus elementos. Ya que A es triangular, tiene eigenvalores ( A) 1, 4, 4.001 . Consideremos una matriz perturbada A A , donde 0 0 0 A 0 0 0 . 0.001 0 0 . , 4.0582, 3.9427 , es decir, una perturbación de 0.001 Sus eigenvalores ya son ( A A) 10001 en el elemento matricial a31 de la matriz A causa un error de 0.1 en su tercer eigenvalor. ■ También notemos que bajo una perturbación infinitesimal de sus elementos, una matriz defectuosa se convierte en una matriz no singular. En otras palabras, las matrices defectuosas tienen la medida nula en el espacio de todas las matrices. La celda de Jordan es un ejemplo típico. En efecto, el siguiente ejemplo demuestra que los eigenvalores y eigenvectores de una celda de Jordan pueden cambiarse drásticamente bajo una perturbación infinitesimal de los elementos de la celda. Ejemplo 2.6.2. Caso 1. En primer lugar, consideremos una familia de matrices cuadradas del segundo orden A( ) que depende de un parámetro : 0 1 A( ) 0 Si 1 entonces la matriz A(1) es simétrica, y si 0 entonces la matriz A(0) es la celda de Jordan. Consideremos ahora el caso cuando 0 1 . Los eigenvalores de la matriz A( ) son 1,2 ( ) , mientras que los eigenvectores correspondientes son 122 1 1 u1 y u2 En el límite, cuando 0 , la celda de Jordan A(0) tiene dos eigenvalores iguales a cero: 1 (0) 2 (0) 0 , y solo un eigenvector, debido a que los dos eigenvectores u1 y u2 convergen a 1 solo un eigenvector u1 . 0 Caso 2. Sea 0 J ( ) 0 0 1 0 1 0 0 1 0 0 0 0 0 0 0 0 1 celda de Jordan de orden n . Tiene sólo un eigenvalor de multiplicidad n . Sin embargo, tiene sólo un eigenvector correspondiente, ya que J () x x , o bien, {J () }x 0 . Se puede reescribir la última ecuación como 0 0 0 1 0 1 0 0 1 0 0 0 0 0 0 x1 0 0 x2 0 0 xn 2 0 1 xn 1 0 xn 0 Las primeras n 1 ecuaciones muestran que x2 0,..., xn 0 y, por lo tanto, existe solo un eigenvector normalizado a uno: x {1,0,0,...,0} . ■ 123 Ejemplo 2.6.3. Sea 0 1 0 0 0 0 0 1 0 0 A( ) 1 0 0 0 0 0 1 0 0 0 0 (2.6.4) la matriz cuadrada 10 10 . Cuando 0 , la matriz (2.6.4) es celda de Jordan. Consideremos el problema espectral: A( )u u . Es evidente que tanto eigenvector u (u1 , u2 ,, u10 ) , como eigenvalor de la matriz A( ) dependen del valor de . En efecto, es evidente que u2 u1 , u3 u2 ,, u10 u9 , u1 u10 . Por eso, u1 u10 2 u9 3 u8 10 u1 , es decir, 10 , y, por lo tanto, 10 . Así, 1) si 0 , entonces 0 y u (1, 0,, 0) . . y u (1, 10 1 , 10 2 ,, 10 9 ) . 2) si 10 10 , entonces 01 En resumen, la perturbación muy pequeña de la celda de Jordan A( 0) causa cambios drásticos en la solución del problema espectral. ■ En lo que sigue, formulemos varios teoremas que pueden ser útiles para localizar eigenvalores de una matriz. una matriz compleja n n . Entonces Teorema 2.6.2 (Criterio de Gershgorin). Sea A a ij todos sus eigenvalores se encuentran en la unión Gn (A) de n círculos z a kk Rk , donde Rk 124 n a j 1, j k kj ( k 1,2 ,...,n ). (2.6.6) Si la unión Gm ( A) de unos m círculos ( m n ) están aislados de otros, entonces esta unión contiene exactamente m eigenvalores. ■ Demostración. Supongamos que Au u y u uk u T 1 , y para u u1 , u 2 ,...,u n escogemos j tal que 1 . Entonces akk ( akk ) uk n akj u j j 1, j k n a j 1, j k kj Rk . Ya que no sabemos el número concreto k para el eigenvalor , sólo podemos declarar que pertenece a la unión de los circulos (2.6.6). Para demostrar D diag a11, a22 ,..., ann , la segunda y parte del teorema, designamos A D B, donde A(t ) D t B . Notemos que A(0) D , A(1) D B A , y Rk (t ) Rk (t B) t Rk . Es conveniente suponer que los primeros m círculos ( m n ) están aislada de otros y forman el dominio Gm ( A) . Por la continuidad, para cada t `0,1 , la unión Gm ( A(t )) de los priméros m círculos pertenece al dominio Gm ( A) Gm ( A(1)) . Además, el dominio complementario (la unión de restos n m círculos) Gnm ( A(t )) Gn ( A(t )) \ Gm ( A(t )) está aislado de Gm ( A) para cada t. Consideremos eigenvalores k ( A(t )) , k 1,2,...,m . Debido a que los eigenvalores de una matriz dependen continuamente de sus elementos, cada eigenvalor k ( A(0)) k ( D) akk , está conectado con cierto eigenvalor k ( A(1)) k ( A) por una curva continua formada por los eigenvalores k ( A(t )), 0 t 1 y localizada totalmente en Gm ( A) . Los restos n m eigenvalores pertenecen al dominio complementario Gnm ( A) Gn ( A) \ Gm ( A) . ■ 125 Ya que A y AT tienen los mismos eigenvalores, entonces, según el teorema 2.6.2, todos los eigenvalores también pertenecen a la unión de los círculos de Gershgorin z akk Rk , donde Rk n j 1, j k a jk ( k 1, 2,...,n ). (2.6.7) Como resultado, todos los eigenvalores de la matriz A pertenecen a la intersección de dos grupos de círculos (2.6.6) y (2.6.7). Ejemplo 2.6.4. Según el teorema 2.6.2, los eigenvalores de la matriz 1 10 4 A 4 2 10 pertenecen a dos intervalos [1 10 4 ,1 10 4 ] y [2 10 4 , 2 10 4 ] . Sin embargo, en realidad, los eigenvalores de A son 1,2 1.5 0.5 10 8 y, por lo tanto, pertenecen a la unión de los intervalos mucho más pequeños: [1 2 108 ,1 2 108 ] y [2 2 10 8 , 2 2 10 8 ] . ■ Este ejemplo muestra que el teorema de Gershgorin, a pesar de que se aplica a cualquier matriz, proporciona sólo estimaciones aproximadas de los eigenvalores. Ejemplo 2.6.5. Consideremos un proceso iterativo xk Bxk 1 d , con la matriz 8 2 4 1 B 1 4 2 16 2 2 10 126 Según el teorema de Gershgorin todos los eigenvalores pertenecen a la unión de tres círculos: z 5 / 8 1 / 4 . Se deduce que el módulo de cada z 1 / 4 3 / 16 , y z 1/ 2 3 / 8 , eigenvalor es menor que uno, y por lo tanto, el proceso iterativo converge para cualquier vector inicial. ■ Fig. 2.6.1. Círculos de Gershgorin para el ejemplo 2.6.5. Teorema 2.6.3 (de Schur). Sea A una matriz de n n , sea A F su norma de Frobenius y sean 1 ,, n sus eigenvalores. Si H 12 ( A A ) y C 12 ( A A ) , entonces n i i 1 2 A 2 F n , Re(i ) H 2 i 1 2 , y F n Im( ) C 2 i i 1 2 F (2.6.8) Las igualdades en (2.6.8) tienen lugar si y sólo si A es una matriz normal. ■ Demostración. Existe tal matriz unitaria U que A U RU , donde R es una matriz triangular superior, y eigenvalores i de A son elementos diagonales de R. Ya que la norma de Frobenius A F es invariable respecto a cualquier transformación unitaria, tenemos elementos de R por rij , obtenemos 127 A F R F . Denotando los AF R 2 2 F n n i rij i . 2 2 i 1 i j 2 (2.6.9) i 1 Usando la igualdad H 12 U ( R R )U , obtenemos H 2 F 1 2 ( R R ) 2 F n n 12 (i i ) 12 (rij rij ) Re i . 2 2 i 1 i j 2 (2.6.10) i 1 Análogamente se prueba la última desigualdad (2.6.8) usando la fórmula C 12 U ( R R )U . La igualdad en (2.6.9) y (2.6.10) es posible sólo si R es diagonal. Entonces A U RU es normal, debido al teorema 2.2.3. Por el contrario, si A es normal entonces, según el teorema 2.2.3, R es diagonal, y (2.6.8) son igualdades. ■ Corolario 2.6.1 (Teorema de Hirsch). Sea un eigenvalor de una matriz A , y sean max aij , max hij , max cij , i, j i, j (2.6.11) i, j donde aij , hij y cij son elementos de las matrices A, H y C del teorema 2.6.3. Entonces n , Ejemplo 2.6.6. Re n , Im n . (2.6.12) Sean A y B dos matrices, además, A es diagonalizable: A VV 1 y diag 1 , 2 ,..., n donde i son eigenvalores de A. Sea un eigenvalor de la matriz A B . Demostramos ahora que existe un eigenvalor i de A tal que i V donde B V 1 B (V ) B . (2.6.13) es la norma (1.7.6). En efecto, según el Criterio de Gershgorin, los eigenvalores de una matriz C están dentro de los círculos z k ckk 128 n c j 1, j k kj que pertenecen a los círculos n z k ckj C . j 1 Por lo tanto, si es un eigenvalor de C entonces k C . Ahora notemos que las matrices A B (2.6.14) V 1 ( A B)V V 1BV y tienen los mismos eigenvalores y, según (2.6.14), tenemos i V 1BV V V 1 B (V ) B . ■ Por último, estimamos los valores propios de una matriz tridiagonal hermitiana. Teorema 2.6.4. Sea A una matriz tridiagonal hermitiana: 0 a1 c2 0 c a 0 0 2 2 A 0 0 an1 cn 0 0 cn an Entonces i max ci ai ci1 , c1 cn1 0 . 1in Demostración. Según la definición de la norma, tenemos A max ci ai ci 1 1i n y de la ecuación A x i x , x 0 , tenemos i x i x Ax es decir, i A . ■ 129 A x , (2.6.13) Ejercicios: 1. Usando el teorema de Gershgorin demuestre que una matriz simétrica y estrictamente diagonal dominante con los elementos diagonales positivos, es definida positiva. 2. Encuentre los círculos de Gershgorin para la matriz 1 0 i 0 1 6 1 1 . i / 2 i 1 1 0 1 / 2 1 / 2 2 dx Ax . Demuestre que la solución x es etable con respecto a dt perturbaciones iniciales si todos los círculos de Gershgorin pertenecen al semiplano izquierdo ( Re 0 ). 3. Considere la ecuación 4. Sea A aij una matriz cuadrada. Demuestre que si para algún i y para todos los k i se cumplen las desigualdades akk aii akj aij , entonces el círculo de Gershgorin es z aii Ri j k j i (véase el teorema 2.6.2) contiene sólo un eigenvalor. 5. (Teorema de Brauer). Demuestre que cualquier eigenvalor de una matriz A se encuentra por lo menos en uno de los dominios (óvalos de Cassini) z aii z a jj aik k i a k j jk para toda i j . 6. Demuestre que una matriz cuadrada A aij es invertible si aii a jj aik k i a k j jk . 7. Es preciso señalar que la inestabilidad de los eigenvalores no está necesariamente relacionada con la existencia de eigenvalores multiples y menos con la existencia de celdas de Jordan de dimensión 2 o más (como en el caso de la matriz A(0) en el ejemplo 2.6.2). En efecto, consideremos la matriz 20 20 0 0 0 0 0 19 20 0 0 0 0 0 18 20 0 0 A( ) 0 0 0 0 0 0 0 2 20 0 0 0 1 La matriz A(0) es triangular con sólo dos diagonales no nulos. Sus eigenvalores que coinciden con los elementos diagonales, están bien separados, y no hay ningunas razones para esperar inestabilidad. Sin embargo, demuestre que la variación en el término libre del polinomio 130 característico de A( ) es 2019 si 0 . Ya que el producto de eigenvalores coincide con el término libre, los eigenvalores tienen que cambiar fuertemente. 8. La matriz 1 1 0 0 1 1 0 0 A 0 0 1 0 0 0 0 1 tiene eigenvalores ( A) 0,1,1, 2 . Demuestre que la matriz 1 1 1 1 0 0 , A 0 1 0 0 0 1 donde 0 1 , tiene eigenvalores ( A ) 1 (1 2 2 )1/ 2 , 1, 1, 1 (1 2 2 )1/ 2 . 9. Demuestre que una matriz cuadrada A aij es invertible si aii a jj aik k i 131 a k j jk . 2.7. Problemas al capítulo 2 1. Demuestre que dos matrices muy cercanas 5 7 6 5 7 10 8 7 A 6 8 10 9 5 7 9 10 5.1 7 6 5 7 10 8 7 A A 6 8 10 9 5 7 9 10 y tienen polinomios característicos distintos, 4 353 1462 100 1 4 35.13 1492 110.6 7.8 , y y por lo tanto, eigenvalores distintos (con precisión de tres dígitos en la mantisa): 1, 2,3, 4 0.010, 0.843, 3.858, 30.289 y 1, 2,3, 4 0.079, 0.844, 3.874, 30.303 . 2. Sea A a jk una matriz cuadrada de dimensión n, tal que n j 1 aij 1 para cada i ( i 1,..., n) . Demuestre que ( A) ( DA) para cualquier matriz diagonal D. 3. Demuestre que 2 ( A) max i ( A) / min i ( A) para cualquier matriz normal. i i 1 4. Sea A una matriz no singular. Demuestre que ( A) A 1 min B donde el B valor mínimo se busca sobre todas las matrices B tales que A+B es singular, es decir, det( A B) 0 . Así, una matriz no singular A es cerca de una matriz singular si su número de condición (A) es grande. 5. Sea una norma matricial definida con cinco axiomas. Demuestre que para cualquier matriz A, ( A) max i ( A) / min i ( A) donde i (A) es un i eigenvalor de A . 132 i 6. Designamos por Ak la matriz k k formada por la intersección de las primeras k filas y columnas de la matriz A . Sea A una matriz hermitiana y definida positiva. Demuestre que 2 ( Ak ) 2 ( A) para cada k (k 1, 2,..., n) . 7. En muchos casos, la consideración de ambas matrices (A y A T ) permite mejorar las estimaciones. Demuestre que cualquier eigenvalor de una matriz A se encuentra por lo menos en uno de los dominios z aii z a jj aik k i a jk k j a ki k i a kj k j 1 para todos los i j si 0 1 . 8. Sea A una matriz diagonalizable n n con eigenvalores 1 , 2 ,..., n , sea B una matriz n n , y un eigenvalor de la matriz A B . Demuestre que min k p (C) B p , 1 k n donde C es una matriz no singular tal que C 1 AC es diagonal y p 1,2, . 9. Encuentre el lugar de la curva cuadrática x12 4 x22 x1 4 x2 en la clasificación. 10. Sea P(x) un polinomio. Demuestre que para dos matrices semejantes A y B , las matrices P(A) y P(B) también son semejantes. 11. Sea Q una matriz ortogonal. Sea su eigenvalor tal que 1 , pero 1 . Suponiendo que x iy donde x y y son vectores reales, demuestre que x es ortogonal a y . 133 12. Sean A y B dos matrices simétricas y A 0 (semidefinida positiva). Demuestre que todos los eigenvalores de la matriz AB son números reales. 13. Sean A y B dos matrices simétricas. Demuestre que todos los eigenvalores de la matriz AB BA son números puros imaginarios. 14. Sea x , Ax x , Bx para cualquier vector x . ¿Se deduce de aquí que A B ? 15. Demuestre que AT A , AB 16. Demuestre que A* A , AB T * 17. Demuestre que ( A1 A2 T An )* An* * BT AT , A B T AT BT , A A n T T n . B* A* . A2* A1* . 18. Sea B una matriz simétrica. Demuestre que la matriz AT BA es simétrica. 19. Sea A iB una matriz hermitiana, donde A y B son matrices reales. Demuestre que AT A y BT B . 20. Sea Q una matriz ortogonal. Demuestre que la matriz traspuesta Q T también es ortogonal. 21. Sea A una matriz normal y todos sus números características son reales. Demuestre que la matriz A es hermitiana y se reduce a la forma diagonal con una transformada unitaria. 22. Demuestre que det A det AT . 23. Demuestre que Ax, By x, AT By . 134 24. ¿Bajo qué condiciones Ax , x 0 para todos los vectores x ? 25. Demuestre que si AX XA para cualquier matriz X entonces A es una matriz escalar: A aE . 26. Sean A y B dos matrices triangulares superiores. Demuestre que AB es del mismo tipo, sin embargo en general AB BA . cos 27. Sea T ( ) sen sen . Demuestre que T (1 ) T (2 ) T (2 )T (1 ) T (1 2 ) . cos 28. Demuestre que 2 n Ax , Ax aij x j . i 1 j 1 n 29. Sea A una matriz real simétrica. Demuestre que la matriz E A es definida positiva si es bastante pequeño. 30. Demuestre que la suposición de la existencia de N diferentes números característicos se puede sustituir por el requisito de la existencia N eigenvectores linealmente independientes. 31. Sea A una matriz normal y todos sus números característicos son reales. Demuestre que la matriz A es hermitiana y se reduce a la forma diagonal con una transformada unitaria. 32. Encuentre una condición necesaria y suficiente que garantiza que cada solución de la ecuación x(n 1) Ax(n) tiende a cero cuando n . 135 33. Demuestre que los eigenvectores de una matriz A son los eigenvectores de la matriz p( A) para cualquier polinomio p( x) . 34. Sea A una matriz no singular. Demuestre que existe una matriz triangular T tal que la matriz TA es unitaria. 35. Sean AiT Ai m y A E . Entonces las condiciones siguientes son equivalentes: i 1 i a) cada matriz Ai es idempotente; b) Ai Aj 0 si i j . 36. Demuestre que i ( A) i ( AT ) 37. Sea Q una matriz ortogonal, y sea U una matriz unitaria. Demuestre que i ( A) i (QT AQ) y i ( A) i (U * AU ) . 38. Sean A y B dos matrices cuadradas de orden dos. Demuestre que i ( A) i ( B) i ( A B) y i ( A) i ( B) i ( AB) . 39. Sea A una matriz m n , y sea B B1 B2 Demuestre que AB AB1 AB2 Bn una matriz particionada n p . ABn . 40. De condiciones necesarias y suficientes para una matriz triangular superior para ser invertible. 136 Capítulo 3. Métodos directos para sistemas lineales Todos los métodos desarrollados para resolver un sistema de ecuaciones algebraicas lineales se dividen en dos grupos. Al primer grupo pertenecen los métodos exactos (o directos), es decir, los algoritmos que permiten obtener la solución de un sistema lineal en un número finito de operaciones aritméticas. Aquí figuran la conocida regla de Cramer para calcular la solución por medio de determinantes, el método de eliminación de Gauss, y otros métodos basados en la factorización LU (Rutishauser, 1958) o la factorización QR (Francis, 1961; Kublanovskaya, 1961) de la matriz del sistema. Para matrices bandas (que tienen valores no nulos sólo en un entorno de la diagonal principal) y definidas positivas se recomiendan los métodos especiales. Entre los métodos de este grupo, el método de factorización de Thomas (1949) para una matriz tridiagonal, ocupa un lugar especial. La regla de Cramer es una fórmula explícita para hallar la solución x ( x1 , x2 ,..., xn ) de un sistema de ecuaciones lineales Ax b con una matriz cuadrada A no singular de orden n (Cramer, 1750): xi det( Ai ) / det( A) , i 1, 2,..., n donde Ai es la matriz obtenida mediante la sustitución de la i-ésima columna de A por el vector b . Cabe señalar que a pesar de su gran importancia teórica, la regla de Cramer no se usa en las computadoras, ya que requiere un número de operaciones aritméticas mucho mayor que el método de Gauss. Sin embargo, se puede utilizar el método de Cramer para hallar sólo una componente xi del vector desconocido, sin tener que resolver todo el sistema de ecuaciones. 137 No es posible elaborar un método directo para cada tarea. Por ejemplo, utilizando un número finito de operaciones aritméticas no se puede resolver la ecuación x2 2 . Si la extracción de la raíz se asume como operación elemental, entonces el método directo ya existe, pero gracias al teorema de Abel-Ruffini, sabemos que aun en este caso, no pueden resolverse por radicales las ecuaciones polinómicas generales de grado igual o superior a cinco. Para sistemas lineales, métodos directos existen. Normalmente, dichos métodos se emplean para resolver un sistema lineal si el orden n de la matriz no es demasiado grande (por ejemplo, es menor que cien mil). Y si el orden n es muy grande se usan los métodos aproximados (iterativos) como más efectivos y económicos. En este capítulo, estudiamos los métodos directos, mientras algunos métodos iterativos se considerarán en el capítulo 4 (el método de Jacobi o iteraciones simples, el método de Gauss-Seidel, el método de SOR y métodos de minimización). Para un estudio más profundo de los métodos de ambos grupos se recomiendan los trabajos de Kunz (1957), Faddeev y Faddeeva (1963), Fox (1964), Wilkinson (1965), Gantmacher (1966), Forsythe et al. (1977), Lawson y Hanson (1974), Hageman y Young (1981), Marchuk (1982), Rutishauser (1990), Golub y Ortega (1992), Stoer y Bulirsch (1993), y Ciarlet (1995), Myron y Isaacson (1998). Varios problemas se presentan en los apartados 3.10 y 4.7. 3.1. Factorización LU Todos los métodos directos (exactos) para resolver sistemas de ecuaciones algebraicas lineales Ax b están basados en una factorización de la matriz A como el producto de dos matrices que tienen una estructura más simple. Es particularmente útil la factorización A LU , donde L es una matriz triangular inferior, y U es una matriz triangular superior. Empezaremos a estudiar dicha 138 factorización con el teorema LU (Parlett, 1980). Las condiciones de este teorema garantizan la existencia de la factorización LU y la posibilidad de presentar el problema original Ax b (3.1.1) L(U x ) b (3.1.2) como Por lo tanto, la solución del sistema (3.1.1) se reduce a la solución sucesiva de los dos sistemas lineales triangulares: Ly b y Ux y (3.1.3) Ya que tanto L como U son matrices triangulares, cada uno de los sistemas (3.1.3) se resuelve fácil y exactamente usando la sustitución hacia adelante o la sustitución hacia atrás (véase, por ejemplo, las fórmulas (2.4.6) y (2.4.7)) y requiere solo O(n2 ) operaciones. Por otra parte, el algoritmo (3.1.3) además se puede utilizar como un método económico para resolver cualquier otro sistema lineal Ax d con la misma matriz, pero con un vector distinto. Sin embargo, hay que mencionar que en general, la factorización LU es la más lenta parte en el proceso de solución del sistema (3.1.1). Definición 3.1.1. Designamos por Ak la matriz k k formada por la intersección de las primeras k filas y columnas de la matriz A . Si det Ak 0 para todo k (k 1, 2,..., n ) , la matriz A se llama estrictamente regular. 139 Definición 3.1.2. Una matriz se llama unitriangular (superior o inferior) si es la matriz triangular (superior o inferior) en la que todos los elementos de la diagonal principal son iguales a uno. Teorema 3.1.1 (teorema LU ). Sea A una matriz estrictamente regular n n . Entonces existe sólo una matriz unitriangular inferior L lij y sólo una matriz triangular superior U uij tal que A LU Demostración. (3.1.4) Usamos la inducción matemática con n. Para n 1 , la factorización l11 1, u11 a11 es única. Supongamos que el teorema es válido para n k 1 , es decir, Lk 1U k 1 Ak 1 . Entonces, para n k , presentamos Lk , U k y Ak de la forma siguiente: Ak 1 r , Ak T akk p L Lk kT1 l 0 , 1 U k 1 u Uk T u kk 0 (3.1.5) donde p , r , l y u son vectores columnas con k 1 componentes cada uno. Si identificamos el producto LkU k con la matriz Ak entonces obtenemos las cuatro ecuaciones: Lk 1U k 1 Ak 1 , Lk 1u r , l TU k 1 pT , l T u u kk a kk (3.1.6) Según la hipótesis de la inducción, las matrices Lk 1 y U k 1 están únicamente determinadas y son no singulares, ya que det( Lk 1 ) det(U k 1 ) det( Ak 1 ) 0 140 (3.1.7) y, por lo tanto, los vectores u y l también están únicamente determinados por el segundo y tercero sistemas triangulares (3.1.6). Finalmente, el número u kk se determina de la última ecuación (3.1.6). Entonces, Lk y U k están únicamente determinadas. El teorema queda demostrado. ■ Observación 3.1.1. Se puede dar otra demostración de la unicidad de la factorización LU . 1 1 En efecto, supongamos que LU 1 1 L2U 2 . Entonces L2 L1 U 2U1 D . La matriz D es diagonal, ya que el producto L21 L1 es una matriz triangular inferior, mientras que el producto U 2U11 es una matriz triangular superior. Además, el producto L21 L1 de dos matrices unitriangulares es también unitriangular, es decir, D E (matriz identidad) y, por lo tanto, L2 L1 y U 2 U1 . ■ Observación 3.1.2. Cuando det Ak 0 para un número k (k 1,2,..., n 1) , la factorización LU de la matriz A puede no existir como lo muestra el siguiente ejemplo simple. Sea 0 3 A 3 2 Suponiendo que la factorización A LU existe, obtenemos 0 u11 u12 l11u11 l11u12 l 0 3 LU 11 l21 l22 0 u22 l21u11 l21u12 l22u22 3 2 Como l11u11 0 , hay dos opciones: l11 0 (y, por tanto, la primera fila de la matriz LU es nula), o u11 0 (y, por tanto, la primera columna de la matriz LU es nula). En ambos casos llegamos a una contradicción. Entonces, A LU . Sin embargo, siempre se puede cambiar las filas de la matriz y presentar el problema original 141 0 3 x1 b1 3 2 x b 2 2 como 3 2 x1 b2 0 3 x b 2 1 La matriz del problema modificado ya tiene factorización LU. ■ Corolario 3.1.1. Una matriz A tiene la factorización LU si y sólo si A es estrictamente regular. Cálculo de la matriz inversa. En la sección 1.3 ya consideramos un método para el cálculo de la matriz inversa X A1 : Método 1: hay que resolver Ax j e j para j 1,..., n , donde x j es la j-ésima columna de A 1 y e j (0,...,1,0,...,0) T . j Otros dos métodos para hallar X A1 están basados en el uso de la factorización A LU (Higham, 2002). Método 2: requiere primero calcular U 1 y luego resolver para X la ecuación XL U 1 . Notemos que los métodos 1 y 2 son equivalentes en el sentido de que el primer método resuelve para X la ecuación LUX E , mientras el segundo método resuelve XLU E . Por lo tanto, los dos métodos llevan a cabo operaciones análogas, pero en diferentes órdenes. Método 3: requiere primero calcular L1 y U 1 , y luego formar A1 U 1 L1 . La ventaja de este método es que no se necesita ningún espacio de trabajo adicional; L1 y U 1 pueden sobrescribir L y U , y luego pueden ser sobrescritos por su producto. 142 Factorización de Cholesky. La factorización A LU toma una forma más sencilla cuando la matriz A es simétrica y definida positiva. Se llama factorización de Cholesky. La demostración está basada en la afirmación siguiente: Criterio de Sylvester. Una matriz simétrica A de orden n es definida positiva si y sólo si det Ak 0 para cada k (k 1, 2,..., n) . ■ Teorema 3.1.2 (Factorización de Cholesky). Si A es una matriz simétrica y definida positiva, entonces existe sólo una factorización A RT R (3.1.8) donde R es una matriz triangular superior con todos los elementos positivos en su diagonal principal. Demostración. Debido al teorema 3.1.1, la factorización A LU existe y es única. Notemos que det( Lk ) 1 . Se deducen de aquí las fórmulas det( Ak ) det( Lk ) det(U k ) det(U k ) (3.1.9) y det( Ak ) u kk det( Ak 1 ) . (3.1.10) Tomando en consideración (3.1.9), (3.1.10), y el criterio de Sylvester, obtenemos u11 a11 0 , y u kk det( Ak ) 0 , det( Ak 1 ) k=2,3,…,n (3.1.11) Introduciendo la matriz diagonal definida positiva D diag u11, u 22 ,, u nn se puede escribir la factorización de la forma A LU LDD1U LDP 143 donde P D1U . Además, notemos que L y P son matrices triangulares, únicamente determinadas, y con todos los elementos en sus diagonales principales iguales a uno. Por la simetría de la matriz A, tenemos A AT P T DLT LDP , o bien, L PT U T D1 . Definiendo la matriz R como R D1/ 2U , obtenemos R T R (U T D 1 / 2 )( D 1 / 2U ) (U T D 1 )U LU A El teorema queda demostrado. ■ Corolario 3.1.2. Los minores det( Ak ) son positivos para todos k si y sólo si ukk 0 (k 1,2,..., n) . Véase (3.1.11). ■ Corolario 3.1.3. Si A es una matriz estrictamente regular y simétrica ( AT A ), entonces existe la factorización A LDLT donde L es una matriz unitriangular inferior, D diag u11, u 22 ,, u nn y uii 0 son elementos diagonales de la matriz U en la factorización A LU . En efecto, A LU LDD1U AT (U T D1 )( DLT ) . Obviamente, la matriz U T D1 es unitriangular inferior. Debido a la unicidad de la factorización LU, DLT U . ■ Corolario 3.1.4. Si A es una matriz estrictamente regular y hermitiana ( A* A ), entonces existe la factorización A LDL* donde L es una matriz unitriangular inferior y D diag u11, u 22 ,, u nn es la matriz diagonal no singular ( uii 0 ). Ejemplo 3.1.1. Sea 144 1 1 0 0 0 1 2 1 0 0 A 0 1 2 1 0 0 0 1 2 1 0 0 0 1 2 Esta matriz es simétrica y definida positiva (según el criterio de Sylvester), y aparece al discretizar 2 el operador A a x2 2 condiciones 1 0 y en la malla regular x i (i 0,1,...,6) con el tamaño h a y las 6 0 en los puntos de la frontera. Según el teorema 3.1.2, la factorización de A tiene forma A R T R , donde 1 1 0 0 0 0 1 1 0 0 R 0 0 1 1 0 . ■ 0 0 0 1 1 0 0 0 0 1 Ejercicios: 1. Demuestre que el sistema Ax b con la matriz 3 1 2 A 1 2 1 1 12 5 a) no tiene ninguna solución si b (4, 6,9)T ; b) tiene un número infinito de soluciones si b (4, 6,10)T . 2. Sea det Ak 0 para cada k (k 1,2,..., n 1) , pero det A det An 0 (A es singular). Demuestre que el resultado del teorema LU sigue siendo válido con la particularidad de que u nn 0 . 145 3. Sea A una matriz y sea A=LU su factorización LU. Demuestre que la matriz B=UL es semejante a A, y por lo tanto, sus eigenvalores coinciden con los de la matriz A. [Indirecta: demuestre que A LBL1 ]. 4. Sea A R T R la factorización (3.1.8) de una matriz simétrica y definida positiva A. Sea W una matriz obtenida mediante el cambio del signo de cada elemento Rij de la i-ésima fila de R. Demuestre que A W TW . Así, la factorización (3.1.8) no es única. Sin embargo, es única si R tiene todos los elementos positivos en su diagonal principal. 5. Encuentre la factorización LU de las matrices siguientes: 1 1 0 A 0 1 1 . 1 1 1 1 3 A ; 2 7 6. Encuentre la factorización de Cholesky de las matrices siguientes: 2 1 0 0 1 2 1 0 A 0 1 2 1 ; 0 0 1 2 1 2 3 4 2 5 1 10 A 3 1 35 5 . 4 10 5 45 7. Sea A una matriz simétrica, pero no todos sus elementos diagonales son positivos. ¿Cuántas distintas factorizaciones de Cholesky existen en este caso? 8. Sea L una matriz triangular inferior no singular. Demuestre que la matriz inversa L1 es triangular inferior. Además, demuestre que si todos los elementos diagonales de L son iguales a uno (es decir, la matriz L es unitriangular inferior), entonces L1 también es unitriangular. 146 3.2. Eliminación de Gauss En este apartado estudiamos el método de Gauss (la eliminación gaussiana) que sigue siendo uno de los más famosos y mejores métodos para resolver un sistema de ecuaciones lineales (Faddeev y Faddeeva, 1963; Hamilton, 1989; Volkov, 1990; Golub y Ortega, 1992; Ciarlet, 1995; Iserles, 1998). Un caso particular. Para facilitar la exposición del método de eliminación de Gauss, examinemos un sistema de cuatro ecuaciones algebraicas lineales Ax b , (3.2.1) o bien, 4 a j 1 ij x j bi , i=1,2,3,4 Es conveniente introducir nuevas designaciones (Volkov, 1990): aij( 0 ) a ij (3.2.2) y bi ai(50) donde i,j=1,2,3,4. Entonces el sistema (3.2.2) se puede escribir como (0) (0) (0) (0) (0) a11 x1 a12 x2 a13 x3 a14 x4 a15 (0) (0) (0) (0) (0) a 21 x1 a 22 x2 a 23 x3 a 24 x4 a 25 , (0) (0) (0) (0) (0) a31 x1 a32 x2 a33 x3 a34 x4 a35 (3.2.3) (0) (0) (0) (0) (0) a 41 x1 a 42 x2 a 43 x3 a 44 x4 a 45 o en una forma más compacta: 4 a j 1 ( 0) ij x j ai(50) , i=1,2,3,4 (3.2.4) ( 0) El coeficiente a11 , que multiplica la primera incógnita x1 en la primera ecuación (3.2.3), se conoce como el pivote (elemento rector) en este primer paso de eliminación. Supongamos que (0) (0) a11 0 . De lo contrario, por un cambio de filas siempre es posible hacer que la condición a11 0 se cumpla (la matriz no es singular). Para reducir el error de redondeo, a menudo es necesario 147 realizar intercambios de filas incluso cuando los elementos de pivote no son cero (con el fin de seleccionar como pivote un elemento con la mayor magnitud). Esto puede ser seguido por el intercambio de las columnas, si necesario. ( 0) Al dividir la primera ecuación (3.2.3) entre a11 , obtenemos una ecuación nueva: x1 a12(1) x2 a13(1) x3 a14(1) x4 a15(1) (3.2.5) donde a1(1j) a1( 0j ) / a11( 0 ) , j=2,3,4,5. Eliminemos la incógnita x1 en cada una de las ecuaciones del sistema (3.2.3) a partir de la segunda, a base de sustraer la ecuación (3.2.5) multiplicada por el coeficiente de x1 en la ecuación correspondiente. Las ecuaciones transformadas adquieren la forma siguiente: (1) (1) (1) (1) a 22 x2 a 23 x3 a 24 x4 a 25 (1) (1) (1) (1) a32 x2 a33 x3 a34 x4 a35 , (1) (1) (1) (1) a 42 x2 a 43 x3 a 44 x4 a 45 (3.2.6) o bien, 4 a j 2 (1) ij x j ai(51) , i=2,3,4 , (3.2.7) donde aij(1) aij( 0 ) a1(1j) ai(10 ) , i=2,3,4; j=2,3,4,5. (1) (1) Ahora supongamos que el pivote a22 también es distinto de cero: a22 0 . Entonces, al dividir la primera ecuación (3.2.6) entre este coeficiente, obtendremos la ecuación ( 2) ( 2) ( 2) x2 a23 x3 a24 x4 a25 (3.2.8) (1) donde a 2( 2j) a 2(1j) / a 22 , j=3,4,5. Al eliminar, mediante la ecuación (3.2.8), la incógnita x2 en las dos últimas ecuaciones del sistema (3.2.6), llegamos a las ecuaciones ( 2) ( 2) ( 2) a33 x3 a34 x4 a35 , ( 2) ( 2) ( 2) a 43 x3 a 44 x4 a 45 148 (3.2.9) o bien, 4 a j 3 ( 2) ij x j ai(52) , i=3,4, (3.2.10) donde aij( 2 ) aij(1) a 2( 2j) ai(21) , i=3,4; j=3,4,5. Si a33( 2 ) 0 , entonces, dividiendo entre este pivote la primera ecuación (3.2.9), y restando la ( 2) ecuación hallada, multiplicada por a43 de la segunda ecuación del sistema (3.2.9), obtenemos ( 3) ( 3) x3 a34 x4 a35 (3.2.11) ( 3) ( 3) a44 x4 a45 (3.2.12) ( 2) ( 3) donde a3( 3j) a3( 2j ) / a33( 2 ) , a 4( 3j) a 4( 2j) a3( 3j) a 43 , j=4,5. Por último, si a44 0 , entonces ( 4) x4 a 45 (3.2.13) ( 4) ( 3) ( 3) a 45 / a 44 donde a 45 . ( 2) ( 0) (1) ( 3) Así pues, si los pivotes a11 , a22 , a33 y a44 son distintos de cero, entonces el sistema (3.2.3) es equivalente al siguiente sistema simplificado con una matriz triangular superior: (1) (1) (1) (1) x1 a12 x2 a13 x3 a14 x4 a15 ( 2) ( 2) ( 2) x2 a 23 x3 a 24 x4 a 25 ( 3) ( 3) x3 a34 x4 a35 (3.2.14) ( 4) x4 a 45 obtenido a base de unir las ecuaciones (3.2.5), (3.2.8), (3.2.11) y (3.2.13). El proceso de reducción del sistema (3.2.3) a la forma triangular (3.2.14) se llama carrera directa del método de Gauss. Luego, las incógnitas x1 , x2 , x3 , y x4 del sistema (3.2.14) se calculan por sustitución regresiva según las fórmulas 149 ( 4) x4 a 45 ( 3) ( 3) x3 a35 a34 x4 ( 2) ( 2) ( 2) x2 a 25 a 23 x3 a 24 x4 (3.2.15) (1) (1) (1) (1) x1 a15 a12 x2 a13 x3 a14 x4 La búsqueda de las incógnitas mediante la sustitución regresiva (3.2.15) se llama carrera inversa del método de Gauss. El caso general. Análogamente, utilizando el método de Gauss se resuelve el sistema de un número arbitrario n de ecuaciones algebraicas lineales. Sea dado el sistema n a j 1 (0) ij x j ai(,0n)1 , i=1,2,…, n (3.2.16) (0) Si a11 0 y los pivotes a ii( i 1) , i=2,3,…, n de las demás filas, que se obtienen en el curso de los cálculos, son distintos de cero, entonces, el sistema (3.2.16) se reduce a la siguiente forma triangular (la carrera directa): xi n a j i 1 (i ) ij x j ai(,in)1 , i=1,2,…, n (3.2.17) donde k 1, 2, , n j k 1, , n 1 akj( k ) akj( k 1) / akk( k 1) ; i k 1, n (3.2.18) aij( k ) aij( k 1) akj( k ) aik( k 1) La carrera inversa, donde las incógnitas se calculan por sustitución regresiva, se realiza por medio de las fórmulas 150 xn an( n,n)1 ; i n 1, n 2, , 1 (i ) xi ai ,n1 (3.2.19) aij( i ) x j j i 1 n Observación 3.2.1. La cantidad de tiempo requerido para completar los cálculos depende del número de operaciones aritméticas en punto flotante necesarios para resolver un problema. En general, la cantidad de tiempo necesario para realizar una multiplicación o división en un ordenador es aproximadamente el mismo y es considerablemente mayor que la requerida para llevar a cabo una adición o sustracción. Las diferencias reales en tiempo de ejecución, sin embargo, dependen del sistema informático particular. La eliminación de Gauss necesita n3 / 3 O( n 2 ) multiplicaciones/divisiones y n3 / 3 O(n2 ) adiciones/sustracciones. Así, la duplicación del número de incógnitos (n) aumenta el tiempo computacional por factor de ocho. Por ejemplo, si una computadora hace una multiplicación más una adición por 106 segundos, entonces la eleminación de Gauss reqiere aproximadamente 10 minutos para una matriz de dimensión n 103 , y seis días para una matriz de dimensión n 104 . Por eso, para matrices de dimensión alta, un método iterativo a menudo es más económico que la eliminación de Gauss. ■ El siguiente afirmación muestra que el método de Gauss se basa en la factorización A LU de la matriz A del sistema original L(U x ) b , y se reduce a la solución sucesiva del sistema Ly b (la carrera directa) y del sistema U x y (la carrera inversa). Teorema 3.2.1. Para una matriz no singular A, la eliminación de Gauss sin reordenar filas y columnas realiza la factorización LU. 151 Demostración. En la primera etapa de la eliminación, la primera ecuación se multiplica por a j1 / a11 , y el resultado se resta de la ecuación j-ésima, es decir, la matriz original A1 A se multiplica de la izquierda por la matriz triangular inferior 0 0 1 a21 1 0 a L1 11 . an1 0 1 a11 Como resultado, obtenemos la matriz a A2 L1 A1 11 0 * An(1)1 donde An(1)1 es una matriz de dimensión n-1. En la segunda etapa, el mismo procedimiento se repita para la matriz An(1)1 cual se multiplica por la matriz L2 , etc. De esta manera, después de n-1 etapas de eliminación, llegamos a la matriz A2 Ln 1 L2 L1 A U con las matrices triangulares inferiores (no singulares) L1 , L2 ,..., Ln 1 , y una matriz triangular superior U. Denotando L ( Ln 1 L2 L1 ) 1 , obtenemos A LU , donde la matriz L es una matriz triangular inferior. ■ Ejemplo 3.2.1 (Jacob, 1995). Consideremos la matriz 1 2 0 A 1 3 1 . 0 2 4 La secuencia de operaciones con filas de la matriz reduce A a una matriz triangular superior U: 1 2 0 1 2 0 1 2 0 A 1 3 1 L1 A 0 1 1 L2 L1 A U 0 1 1 , 0 2 4 0 2 4 0 0 2 152 donde 1 0 0 L1 1 1 0 , 0 0 1 0 0 1 0 0 1 L2 0 1 0 y L2 L1 1 1 0 . 0 2 1 2 2 1 Así ( L2 L1 ) 1 1 0 0 L 1 1 0 . ■ 0 2 1 Definición 3.2.1. La matriz permutación es una matriz binaria cuadrada que tiene exactamente una entrada de 1 en cada fila y cada columna y ceros en otros lugares. De acuerdo a esta definición existen n ! matrices de permutación distintas, de las cuales una mitad corresponde a matrices de permutación par (con el determinante igual a 1), y la otra mitad a matrices de permutación impar (con el determinante igual a 1 ). ■ Por ejemplo, de las dos matrices 0 0 1 1 0 0 P1 1 0 0 y P2 0 0 1 , 0 1 0 0 1 0 P1 es la matriz de permutación par, y P2 es la matriz de permutación impar. Cuando una matriz de permutación P se multiplica con una matriz M de la izquierda ( PM ) se permutar las filas de M , y cuando P se multiplica con M desde la derecha ( MP ) se permutar las columnas de M . Ejemplo 3.2.2 (La factorización PA=LU). Para cada matriz no singular A existe una matriz de permutación P tal que PA posee la factorización LU : PA LU . Ahora consideramos 153 el caso cuando en el proceso de la eliminación de Gauss hay que cambiar algunas filas de la matriz. Sea dado la matriz 1 2 3 A 0 0 2 . 1 3 4 En la segunda etapa de la eliminación es necesario cambiar las dos últimas filas de A. Sin embargo, aplicando a la matriz A una matriz de permutación P obtenemos la matriz 1 0 0 1 2 3 1 2 3 PA 0 0 1 0 0 2 1 3 4 . 0 1 0 1 3 4 0 0 2 A diferencia de A , la matriz PA ya se puede factorizar usando la eliminación de Gauss sin ningun cambio de filas: 1 2 3 1 0 0 1 2 3 PA 1 3 4 1 1 0 0 1 1 LU . ■ 0 0 2 0 0 1 0 0 2 Según el punto 3 del teorema 1.3.1, si B se obtiene de una matriz A mediante la adición de una fila, multiplicada por un número, a otra fila, entonces det(B) det( A) . Además, el punto 4 de la misma teorema dice que si B se obtiene de A mediante el intercambio de dos filas, entonces det(B) det( A) . Se puede usar dichas propiedades para calcular el determinante de una matriz mediante los pasos del proceso de eliminación de Gauss. Ejemplo 3.2.3. Consideremos la matriz 1 0 1 A 2 0 3 . 1 3 1 154 Restamos de la segunda fila la primera multiplicada por 2. Luego restamos la primera fila de la tercera. Obtenemos 1 0 1 1 0 1 det 2 0 3 det 0 0 1 . 1 3 1 0 3 0 Si intercambiamos dos últimas filas entonces obtenemos una matriz triangular. Ya que su determinante es el producto de sus elementos diagonales, llegamos al siguiente resultado: 1 0 1 1 0 1 det 0 0 1 det 0 3 0 3 . ■ 0 3 0 0 0 1 El caso de una matriz simétrica. Sea dado el sistema Ax b con una matriz A simétrica. Si la eliminación gaussiana se realiza sin ningún cambio de filas y columnas, entonces se puede demostrar por inducción que para cada paso k, aij( k ) a (jik ) , es decir, los elementos transformados de la matriz siempre forman matrices simétricas de la dimensión n 1 k . Si es el caso, entonces es necesario calcular sólo los elementos de estas matrices que están en la diagonal principal y arriba de esa diagonal. Observación 3.2.2. Se han desarrollado diversas técnicas de selección de elementos pivotes para minimizar los efectos del error de redondeo, que puede dominar la solución cuando se utilizan métodos directos. Ahora dirigimos nuestra atención a las dos clases de matrices para las cuales la eliminación de Gauss se puede realizar de manera eficiente sin intercambiar las filas o columnas de la matriz. La primera clase consiste de las matrices diagonal dominantes, es decir, aii aij para j i cada i. La demostración se puede encontrar en Burden y Faires (2011). La segunda clase forman las 155 matrices simétricas y definidas positivas. Notemos que los elementos diagonales aii y eigenvalores i de una matriz definida positiva son positivos, además aij2 aii a jj y max 1k , j n akj max 1i n aii . Se puede demostrar que la simetría y definidad positiva de una matriz se conservan en cada etapa de la eliminación de Gauss si los elementos diagonales se toman como pivotes. Notemos que la selección correcta de elementos pivotes hace la eliminación de Gauss incondicionalmente estable. Factorización de Cholesky. Sea dado un sistema Ax b donde A es una matriz simétrica y definida positiva. En virtud del teorema 3.1.2, usamos la factorización A R T R donde R T rij es una matriz triangular inferior con todos los elementos positivos en su diagonal principal ( rii 0 para cada i). Tenemos r11 ri1 rn1 0 rii rni Entonces r11 a11 1/ 2 , 0 0 rnn r11 0 0 ri1 rii 0 rn1 a11 rni = ai1 rnn an1 a1i aii ani a1n ain ann (3.2.20) ri1 ai1 / r11 (i 2,3,..., n) . En general, i j k 1 k 1 aii rik2 , aij rik r jk (j<i) La factorización de Cholesky se puede presentar como 1/ 2 j 1 2 j 1,2,, n rjj a jj rjk ; k 1 j 1 1 i j 1, n rij aij rik rjk rjj k 1 (3.2.21) Ejemplo 3.2.4. Vamos a realizar la factorización de Cholesky A R T R de la matriz 156 1 r11 0 4 2 A 2 10 3.5 r21 r22 1 3.5 10.25 r31 r32 r112 r11r1 r11r21 r212 r222 r11r31 r21r31 r22 r32 0 r11 r21 0 0 r22 r33 0 0 r31 r32 r33 r21r31 r22 r32 r312 r322 r332 r11r31 Así pues, r112 4 y r11 2 ; r11r21 2 y r21 1 ; r11r31 1 y r31 0.5 r212 r222 10 y r22 3 ; r21r31 r22 r32 3.5 y r32 1 ; r312 r322 r332 10.25 y r33 3 y tenemos 2 0 0 2 1 0.5 A R R 1 3 0 0 3 1 0.5 1 3 0 0 3 T Observación 3.2.3. El algoritmo de Cholesky tiene las ventajas siguientes sobre el método general de Gauss: 1) requiere la mitad de operaciones aritméticos ( n3 / 6 O(n2 ) multiplicaciones y n3 / 6 O(n2 ) adiciones), 2) la memoria requerida es también de la mitad, 3) conserva el ancho de la banda cuando A es una matriz de banda, 4) se puede guardar los valores rij en el lugar de aij . 157 Sin embargo, no es siempre posible realizar la eliminación de Gauss con una matriz simétrica sin ningún cambio de filas y columnas. Por ejemplo, sea dada la matriz 0 1 A 1 Ya que el pivote de la primera fila es nulo, el cambio de columnas transforma a A en la matriz 1 0 A , 1 es decir, destruye la simetría de la matriz original. Además, el ejemplo muestra que el algoritmo de Gauss con una matriz simétrica puede ser inestable si es muy pequeño: 1 . ■ Ejercicios: 1. Usando los pasos de la eliminación de Gauss (es decir, aplicando las 3.2.1) encuentre la factorización LU de las matrices siguientes: 2 1 4 1 2 0 1 2 3 4 1 5 A 0 2 1 ; A 1 0 1 ; A 2 2 2 0 1 0 0 1 0 3 9 0 2. Encuentre la factorización PA=LU de las matrices siguientes: 0 3 A ; 2 7 0 1 0 A 0 1 1 ; 1 1 0 matrices Li del ejemplo 0 1 3 . 4 1 1 3 A 1 1 1 . 0 2 0 3. Usando las eliminaciones de Gauss demuestre que la matriz 2 3 A 7 0 1 4 7 0 1 1 2 9 15 1 1 1 es singular [Indirecta: demuestre que det A 0 ]. 4. Demostrar que el método de eliminación de Gauss es equivalente a la multiplicación de la matriz A del sistema original Ax b por una matriz triangular inferior F , además, FA=B donde B es una matriz triangular superior con todos sus elementos diagonales iguales a uno. Si denotemos C F 1 , entonces A=CB está factorizada y los elementos de la matriz C se j 1 calculen mediante las formulas: cij aij cipbpj p 1 158 (i j ) . 5. Una matriz H hij se llama matriz de Hessenberg si hij 0 cuando i j 1 . ¿Cuántas operaciones se requieren para resolver el sistema H x b por el método de eliminación de Gauss? 6. Resuelve los sistemas siguientes 2 x1 x2 x3 4 3 x1 4 x2 2 x3 11 , 3 x1 2 x2 4 x3 11 mediante la eliminación de Gauss. 2 x1 4 x2 x3 4 2 x1 6 x2 x3 10 x1 5 x2 2 x3 2 7. Demuestre que la eliminación de Gauss para una matriz tridiagonal n n reqiere 4n multiplicaciones. 8. Sea A1 A una matriz cuadrada y Pi Ai LU i i donde 0 Pi 1 0 1 1 1 0 1 1 0 1 es una matriz de permutación que garantiza la factorización LU, Pi 1 PiT . A veces, bajo ciertas condiciones, el proceso iterativo Ai 1 U i Pi T Li Li 1 ( Pi Ai Pi T ) Li converge a una matriz trianguar superior A con los eigenvalores j de la matriz A en su diagonal principal. Demuestre que dicho proceso a veces diverge y, por tanto, no es un buen algoritmo para calcular los eigenvalores de la matriz A [Indirecta: Considere la matriz 1 3 A 1 A y demuestre que A 3 A1 ]. 2 0 9. Determine valores de a para los cuales el sistema x1 x2 ax3 2 x1 2 x2 ax3 3 ax1 x2 x3 2 no tiene soluciones, o tiene un número infinito de soluciones. 159 10. Sea 1 0 1 A 0 1 1 1 1 a Hallar todos valores de a para los cuales A es simétrica, A es singular, A es definida positiva, A es diagonal dominante. 11. Sea P una matriz de permutación. ¿Es valida la igualdad P 2 E ? 12. (Meyer, 2000). Trate de resolver el sistema x1 3 x2 2 x3 4 x1 4 x2 3 x3 5 x1 5 x2 4 x3 6 usando la eliminación de Gauss y explique por qué este sistema debe tener un número infinito de soluciones. 13. Explique por qué un sistema lineal no puede tener exactamente dos soluciones diferentes, y si tiene más de una solución, entonces debe tener un número infinito de soluciones diferentes. 160 3.3. Factorización QR por medio de la ortogonalización de Gram-Schmidt La factorización A QR donde Q es una matriz ortogonal, mientras que R es una matriz triangular superior se llama factorización QR de la matriz A . La factorización QR es de gran importancia para resolver el sistema de las ecuaciones algebraicas lineales Ax b (3.3.1) ya que en este caso, la solución del problema original Q( R x ) b (3.3.2) se reduce a la solución de un sistema con una matriz no singular triangular Rx QT b (3.3.3) El último sistema coincide con el sistema obtenido al terminar la primera etapa del método de eliminación de Gauss, y se resuelva por la sustitución regresiva. La factorización QR también se puede utilizar para resolver los problemas de cuadrados mínimos (véase la sección 3.9, Observación 3.9.1). Además, dicha factorización es la parte principal del algoritmo QR para hallar eigenvalores. Para ver más información sobre este algoritmo, consulte Golub y Van Loan (1986). El algoritmo QR se usa para calcular eigenvalores de las matrices simétricas, las matrices no simétricas reales, y los pares de matrices complejas, así como los valores singulares de matrices generales (Wilkinson, 1965; véase la sección 4.6). Teorema 3.3.1. La factorización QR existe para cualquier matriz cuadrada real. 161 Demostración. 1. Sea A una matriz no singular. Entonces AT A es simétrica y definida positiva y, por lo tanto, existe la factorización de Cholesky AT A RT R (3.3.4) Es fácil ver que la matriz Q AR 1 es ortogonal: QT Q ( AR 1 )T ( AR 1 ) ( R 1 )T ( AT A) R 1 ( R 1 )T ( RT R) R 1 E (3.3.5) y A QR . 2. Sea A una matriz singular. Entonces la matriz perturbada An A 1n E es no singular para todos n bastante grandes y, por lo tanto, existe la factorización An Qn Rn . Como el conjunto de matrices ortogonales es compacto, existe una subsecuencia Qnk de matrices ortogonales que converge a Q : Qnk Q . Así, QnTk Ank Rnk QT A R y de nuevo A QR . ■ Teorema 3.3.2. Para una matriz no singular, las matrices Q y R se definen de manera única si todos los elementos diagonales de la matriz R son positivos. T 1 Demostración. Supongamos lo contrario: A Q1R1 Q2 R2 . Entonces Q2 Q1 R2 R1 U . La 1 matriz R2 R1 es triangular superior con todos los elementos diagonales positivos, mientras que la T matriz Q2 Q1 es ortogonal. Así, la matriz U es triangular superior con todos los elementos diagonales positivos, y cuyas columnas forman un conjunto de vectores ortonormales. Por lo tanto, T el vector U1 de la primera columna de U es U1 (1, 0,..., 0) e1 . Un argumento similar, junto 162 con el hecho de que las columnas de U son mutuamente ortogonales, produce que el vector U 2 de T la segunda columna de U es U 2 (0,1, 0,..., 0) e2 . Procediendo inductivamente establece que U k ek para cada k, es decir U E y, por lo tanto, Q2 Q1 y R2 R1 . ■ La factorización QR de una matriz rectangular. Sea A una matriz rectangular real m n y m n . Entonces existe la factorización A QR donde R es una matriz triangular superior de orden n , y las columnas de la matriz Q forman vectores ortonormales. Para demostrar esta afirmación es suficiente encerrar la matriz A en una matriz cuadrada m m y llenar las posiciones adicionales con ceros (Tyrtyshnikov, 2006). Por lo tanto, la factorización QR es bastante útil en resolver problemas de cuadrados mínimos (véase la sección 3.9). Aplicación de la ortogonalización de Gram-Schmidt. El método de Gram-Schmidt m descrito en la sección 1.2 se puede usar para ortonormalizar un sistema de vectores. Sea ui i1 un sistema de vectores linealmente independientes. Para obtener un sistema ortogonal vi i 1 ponemos m k primero v1 u1 . Suponiendo que el sistema ortogonal vi i 0 ya está construido, el siguiente vector ortogonal vk 1 se busca de la forma k vk 1 uk 1 akivi (3.3.6) i 1 donde uk 1 , vi uk 1 , vi aki 2 vi , vi vi ( i 1,2,..., k ) Es conveniente normalizar vi a un vector unitario ei vi / vi calcularlo. En este caso, ei 1 y aki uk 1 , ei . 163 (3.3.7) inmediatamente después de Además, se puede aplicar el método de Gram-Schmidt para resolver el sistema (3.3.1) usando la factorización QR de la matriz A y algoritmo (3.3.2)-(3.3.3) (Tyrtyshnikov, 2006). Consideraremos ahora la factorización QR de dos matrices. Ejemplo 3.3.1. Factorizamos la matriz 0 0 1 A 1 1 0 u1 u2 0 1 0 u3 aplicando la ortogonalización de Gram-Schmidt (3.3.6) y (3.3.7) a sus columnas u1T (0,1,0) , u2T (0,1,1) y u3T (1,0,0) : v1 u1 , k vk 1 uk 1 i 0 uk 1 , vi vi , (k 1, 2) vi , vi Como resultado, obtenemos v1 1 u1 0 u2 0 u3 v2 1 u1 1 u2 0 u3 (3.3.8) v3 0 u1 0 u2 1 u3 Las tres ecuaciones (3.3.8) del proceso de Gram-Schmidt representan operaciones con las columnas de la matriz A u1 u2 v1 v2 u3 : v3 u1 u2 1 1 0 u3 0 1 0 0 0 1 (3.3.9) Es fácil calcular la matriz inversa de la matriz triangular superior que aparece en (3.3.9): 164 1 1 1 0 1 1 0 0 1 0 0 1 0 0 0 1 0 0 1 De (3.3.9) se obtiene u1 1 v1 0 v2 0 v3 u2 1 v1 1 v2 0 v3 u3 0 v1 0 v2 1 v3 Así, la matriz A se puede escribir como A u1 u2 u3 v1 v3 v1 v2 o en la forma 1 1 0 v3 0 1 0 0 0 1 A v1 v2 v 1 v1 v1 v3 0 v3 0 v2 v2 Q 0 v2 0 0 0 v3 1 1 0 0 1 0 0 0 1 R v 1 v1 v2 v2 Q v1 v3 0 v3 0 v1 v2 0 R 165 0 0 v3 QR Las columnas de la matriz Q son los vectores ortonormales vi / vi obtenidos mediante la ortogonalización de Gram-Schmidt y, por lo tanto, Q es ortogonal. Así pués, el proceso de GramSchmidt permite factorizar A como el producto de una matriz ortogonal Q y una matriz triangular superior R. ■ La factorización QR descrita en el ejemplo 3.3.1 se puede aplicar a cualquier matriz rectangular n m . Ejemplo 3.3.2. Factorizamos la matriz rectangular 1 0 A 0 0 1 1 1 0 u1 u2 0 1 1 1 u3 aplicando la ortogonalización de Gram-Schmidt (3.3.6) y (3.3.7) a sus columnas: v1 u1 (1, 0, 0, 0)T , u2 , v1 v2 u2 v3 u3 v1 u3 , v1 v1 2 2 v1 v1 1 v1 1 u2 (0,1, 0,1)T , u3 , v2 v2 2 (3.3.10) v2 v1 12 v2 u3 (0, 12 ,1, 12 )T o, bien, u1 1 v1 0 v2 0 v3 u2 1 v1 1 v2 0 v3 u3 1 v1 v2 1 v3 1 2 166 (3.3.11) Como resultado, se obtiene A u1 u2 u3 v1 v1 v2 v 1 v1 v2 v2 Q v1 v3 0 v3 0 v1 12 v2 v3 v1 v2 1 1 1 v3 0 1 12 0 0 1 0 v2 0 0 0 v3 1 1 1 1 0 1 2 QR . ■ 0 0 1 R donde las columnas de la matriz rectangular Q forman vectores ortogonales. Ejercicios: 1. Sea A una matriz ortogonal. ¿Qué estructura tiene la matriz R en su transformación QR? 2. Sea A QR , donde Q es ortogonal y R es triangular superior. ¿Cuál es la relación entre det R y det A ? 3. Resuelve el sistema x1 6 x2 2 x3 5 2 x1 x2 2 x3 1 2 x1 2 x2 6 x3 10 mediante la factorización QR . 4. Aplicando la ortogonalización de Gram-Schmidt, encuentre la factorización QR de las matrices siguientes: 1 1 1 1 1 1 0 0 1 1 1 1 0 0 A 0 1 ; A 1 1 0 ; A 1 1 0 . 1 1 0 1 1 1 0 1 167 5. Introducimos el producto interno de funciones definidas en el intervalo [1,1] como 1 f , g 12 f ( x) g ( x)dx 1 Demuestre que la aplicación del proceso de Gram-Schmidt con el fin de ortogonalizar los polinomios 1, x, x 2 ,... en el intervalo [1,1] genera los polinomios de Legendre Pn ( x ) 1 dn ( x 2 1) n , 2 n n! d x n 168 n 0,1,2,... 3.4. Factorización QR por medio de transformaciones de Givens Rotaciones de Givens. En la sección 3.3, ya mencionamos que la factorización A QR permite resolver exactamente el sistema de las ecuaciones algebraicas lineales Ax b , ya que la solución del problema original Q( R x ) b se reduce a la solución del sistema Rx QT y . En el caso de un espacio vectorial de dos dimensiones R 2 , una matriz ortogonal Q se puede presentar como producto de matrices ortogonales simples basadas en la matriz de rotación de plano por un ángulo : cos sen sen cos (3.4.1) En el caso de un espacio vectorial de tres dimensiones R 3 , las matrices de rotación alrededor de los ejes x, y y z por un ángulo son 0 0 1 Px 0 cos sen , 0 sen cos cos 0 sen Py 0 1 0 y sen 0 cos cos sen 0 Pz sen cos 0 0 0 1 Usando las matrices de rotación, Givens (1954) ofreció un método que usa matrices unitarias para transformar una matriz hermitiana a una forma triangular superior. Estudiamos ahora su método que permite realizar la factorizar QR de cualquier matriz real n n A : A QR (3.4.2) donde Q es una matriz ortogonal, mientras que R es una matriz triangular superior (Faddeev y Faddeeva, 1963; Parlett, 1980; Golub y Ortega, 1992; Stoer y Bulirsch, 1993). Givens introdujo las matrices de rotación n n Pij en el espacio vectorial R n de n dimensiones: 169 1 Pij 1 cij 1 sij sij 1 cij 1 1 (3.4.3) donde cij cosij y sij senij están situados en las filas y columnas i-ésima y j-ésima como se indica, y todos los restos elementos no diagonales son ceros. Las matrices (3.4.3) se llaman matrices de rotación de plano, rotaciones (o transformaciones) de Givens. Sean ei vectores unitarios ortogonales que forman la base ortogonal en R n ( i 1, 2,..., n ), y sea x Rn un vector, x i 1 xi ei . Mientras que la matriz (3.4.1) define una rotación del plano, la matriz Pij realiza una n rotación en el plano formado por los vectores básicos ei y e j en el espacio R n . En efecto, Pij “rota” las coordenadas (i, j ) del vector x en el sentido de que x1 cij xi sij x j Pij x sij xi cij x j xn donde cij xi sij x j es la i-ésima componente y sij xi cij x j es la j-ésima componente del vector Pij x . Si xi 0 y x j 0 , y si establecemos 170 cij xi xi2 x 2j y sij xj xi2 x 2j Entonces x1 x2 x2 j i Pij x 0 xn Esto significa que con Pij , podemos aniquilar selectivamente cualquiera de las componentes del vector x (la j-ésima componente en este caso) por una rotación en el plano (i, j ) sin afectar a ninguna entrada excepto xi y x j . Por lo tanto, rotaciones de Givens se puede usar para aniquilar todas las componentes del vector x que se encuentran por debajo de cualquier particular componente xi . Por ejemplo, para aniquilar todas las componentes del vector x que se encuentran por debajo de x1 hay que aplicar las siguientes rotaciones: x2 x2 2 1 0 x 3 P12 x x4 , x5 xn x2 x2 x2 2 3 1 0 0 P13 P12 x x4 , …, x5 xn P1n P13 P12 x x 0 0 0 0 0 El producto de rotaciones de Givens generalmente no es otra rotación de Givens, pero tal producto es siempre una matriz ortogonal. Así, se puede decir que la secuencia de rotaciones 171 P1n P13 P12 realiza la rotación en el espacio R n de un vector no nulo x sobre el eje de coordenadas primero. Más en general, la siguiente afirmación es cierta: Cada vector distinto de cero se puede girar para la i-ésima eje de coordenadas por una secuencia de n 1 rotaciones de Givens. En otras palabras, existe una matriz ortogonal P tal que Px x ei donde P tiene la forma P Pin Pi ,i 1Pi ,i 1 Pi1 . Factorización QR . Con el fin de lograr la factorización QR vamos a usar matrices Pij para transformar la matriz original A a una matriz triangular superior, es decir, para reducir al cero todos los elementos debajo de la diagonal principal de la matriz A . Designamos la fila i-ésima de la matriz A por a i : a1 a 2 A a3 an Al multiplicar A por P12 , obtenemos la matriz c12a1 s12a 2 s a c a 12 1 12 2 P12 A a3 an Si elegimos s12 y c12 de tal manera que 172 (3.4.4) s12a11 c12a21 0 , (3.4.5) entonces P12 A tiene elemento nulo en la posición (2,1), y los otros elementos de las primeras dos filas son distintos de aquellos de A. Para satisfacer (3.4.5), elegimos 2 2 c12 a11 a11 a21 1 / 2 , 2 2 s12 a21 a11 a21 1 / 2 (3.4.6) El denominador en (3.4.6) es distinto de cero si a21 0 . Pero, si a21 0 entonces la meta ya está alcanzada, y no es necesario aplicar P12 . Luego, aplicando sucesivamente las transformaciones P13 , P14 ,..., P1n a la matriz resultante, obtenemos la matriz P1n P1,n1 P13 P12 A A1 (3.4.7) que tiene todos los elementos nulos en la primera columna debajo de la diagonal principal. Similarmente, la matriz P2 n P2,n1 P24 P23 A1 A2 (3.4.8) ya tiene elementos nulos en dos primeras columnas debajo de la diagonal principal. Continuando de manera similar, obtenemos la matriz tridiagonal superior Pn1,n ( Pn2,n Pn2,n1 )( P2 n P2,n1 P24 P23 )( P1n P1,n1 P13 P12 ) A An1 (3.4.9) Introduciendo dos matrices P Pn1,n ( Pn2,n Pn2,n1 )( P2 n P2,n1 P24 P23 )( P1n P1,n1 P13 P12 ) (3.4.10) y R An1 , 173 (3.4.11) escribimos (3.4.9) como PA R donde P es una matriz ortogonal, debido a que es el producto (3.4.10) de las matrices ortogonales. Ya que Q P 1 también es una matriz ortogonal, obtenemos la factorización requerida A P 1 R QR (3.4.12) Observación 3.4.1. Sea U y V dos matrices ortogonales. Es fácil demostrar que el producto UV y la matriz inversa U 1 también son ortogonales. En efecto, (UV )T (UV ) V T U T UV V T (U T U )V V T V E , (U 1 )T U 1 (U T ) 1U 1 (UU T ) 1 E 1 E . Observación 3.4.2. La factorización QR requiere ■ 4 3 2 n multiplicaciones y n 3 adiciones. 3 3 Además, el cálculo de los valores c ij y s ij requiere O(n 2 ) operaciones aritméticas. Así, la factorización QR requiere aproximadamente cuatro veces más de multiplicaciones y dos veces más adiciones que la factorización LU (véase § 27). En § 30 consideramos la factorización QR más económica basada en las transformaciones de Hauseholder. ■ Ejercicios: 1. Sea T Ω tal que , donde . Determine una rotación de Givens 0 T T [Indirecta: e1 es un eigenvector de T correspondiente al eigenvalor ]. 0 2. Sea A una matriz ortogonal. ¿Qué estructura tiene la matriz R en su transformación QR? 3. Sea A QR , donde Q es ortogonal y R es triangular superior. ¿Cuál es la relación entre det R y det A ? 174 4. Sea A una matriz normal n n con todos sus eigenvalores distintos según módulo: i j si i j . Entonces las matrices Ak de la transformación QR convergen a la matriz diagonal diag 1 , 2 ,..., n de los eigenvalores de A. 5. Si A es una matriz de Hessenberg (véase el ejercicio 5 en la sección 3.2) entonces todas las matrices Ak de la transformación QR son también matrices de Hessenberg. 6. Resuelve el sistema x1 6 x2 2 x3 5 2 x1 x2 2 x3 1 2 x1 2 x2 6 x3 10 mediante la factorización QR . 7. Aplicando la ortogonalización de Gram-Schmidt, encuentre la factorización QR de las matrices siguientes: 1 1 A 0 1 ; 1 1 1 1 A 1 1 1 1 0 0 1 0 ; 0 1 1 1 1 0 0 1 A 1 1 0 . 0 1 1 8. ¿Bajo qué condiciones sobre los números reales a y b será ortogonal la matriz a b b a P ? a b a b 9. Sean U y V dos matrices ortogonales. Demuestre que la matriz U 0 P 0 V es ortogonal, mientras que la matriz U V puede ser no ortogonal. 10. Transformación de Cayley (1889). Sea A una matriz antihermitiana. Demuestre que la matriz U ( E A)( E A)1 ( E A)1 ( E A) es ortogonal. 11. Sea U una matriz ortogonal, a Ux y b Uy . Demuestre que a , b x , y . 175 3.5. Factorización QR por medio de transformaciones de Householder Definición 3.5.1. Cada matriz H de la forma H E 2wwT , (3.5.1) donde wT w 1 se llama transformación de Householder (Householder, 1964). ■ T es simétrica y ortogonal. En efecto, Es fácil demostrar que la matriz H E 2w w E 2w w T T E 2wwT y E 2w w E 2w w T T T E 4wwT 4w(wT w)wT E Por lo tanto, la transformación de Householder deja invariable la norma euclidiana de un vector, es decir, si y Hx entonces yT y ( Hx )T Hx x T ( H T H ) x x T x La transformación de Householder también se llama matriz de transformación elemental. Ejemplo 3.5.1. Sea x y y dos vectores, además y x 0 pero y x . Se busca una matriz ortogonal H tal que y Hx y x Hy . La solución es la matriz de Householder xy H E2 xy 2 ( x y )T En efecto, H ( x y) ( x y) 2 xy xy 176 2 ( x y )T ( x y ) ( x y) 2 xy xy x y yx 2 2 Por otra parte, H ( x y) ( x y) 2 ( x y) 2 xy xy xy xy 2 ( x y )T ( x y ) (x y ) x y 2 2 2 Así, se obtiene el sistema de ecuaciones Hx Hy y x Hx Hy x y Se deduce de aquí que y Hx y x Hy . ■ Ahora demostramos cómo utilizar las transformaciones de Householder para realizar la factorización QR de una matriz A (Ortega y Poole, 1981; Golub y Ortega, 1992; Stoer y Bulirsch, 1993; Ciarlet, 1995). Presentamos la matriz A en la forma A a1 a2 a3 an donde ai es la i-ésima columna de A. En particular, a11 a a1 21 an1 o a1T a11 , a21 , Definimos el vector 177 , an1 w1 1u1 donde u1T a11 s1 , a21 ,, an1 s1 a1T a1 , 1/2 1 2s12 2a11s1 1/2 (3.5.2) 1 (3.5.3) 2 s12 2a11s1 Notemos que el signo de s1 se elige opuesto al signo de a11 con el fin de evitar una posible división entre cero en la fórmula (3.5.3) para 1 , es decir, la inestabilidad del algoritmo. n De la definición de s1 tenemos a j 2 2 j1 2 y, por lo tanto, s12 a11 n 2 2 2 w1T w1 12 a11 s1 a 2j1 12 a11 2a11s1 2s12 a11 1 j 2 Entonces H1 E 2w1w1T es la transformación de Householder. Además, n 1 w1T a1 1 a11 s1 a11 a 2j1 1 s12 a11s1 21 j 2 y, por lo tanto, 2a11 s1 1 a11 2w1 w1T a1 a11 s1 21 (3.5.4) 2a ai1 2wi w1T a1 ai1 i1 1 0 , i= 2,3,…, n 21 (3.5.5) Las fórmulas (3.5.4) y (3.5.5) muestran que 178 s1 0 T H1a1 a1 2( w1 a1 ) w1 , 0 (3.5.6) es decir, en la primera columna de la matriz H1 A , todos los elementos situados por debajo de la diagonal principal son iguales a cero. Así, una transformación ortogonal H1 E 2w1w1T aplicada a la matriz A da el mismo resultado que n 1 transformaciones de Givens P1n P1,n 1 P13 P12 A . El segundo paso del método es análogo al primero. Sean bij los elementos de la matriz T B H1 A . En lugar del vector a1 usaremos el vector b2 b12 ,b22 ,,bn 2 cuyos componentes representan la segunda columna de la matriz B . Se usa la transformación de Householder H 2 E 2w2 w2T definida por un vector w2 2u2 (3.5.7) donde u2 0, b22 s2 , b32 , , bn 2 T (3.5.8) y s2 b2T b2 1/ 2 , 2 2s22 2b22s2 1 / 2 (3.5.9) son las fórmulas análogas a (3.5.2) y (3.5.3). Con esta transformación obtenemos que en las dos primeras columnas de la matriz H 2 H1 A , todos los elementos situados por debajo de la diagonal principal son iguales a cero. Continuamos de la misma manera usando las transformaciones H i E 2wi wiT donde los primeros (i-1) componentes del vector wi i ui son iguales a cero ( i 3,..., n 1 ). Finalmente, obtenemos una matriz triangular superior 179 R H n1H n2 (3.5.10) H 2 H1 A Escribimos (3.5.10) como HA R donde la matriz P H n1H n2 H 2 H1 es ortogonal, debido a que el producto de las matrices ortogonales es también una matriz ortogonal. Ya que la matriz Q P 1 también es ortogonal, obtenemos la factorización requerida A P 1 R QR (3.5.11) Ahora vamos a ver cómo se transforman las demás columnas a i de la matriz A mediante la aplicación de la matriz H 1 (i=2,3,…,n). Tenemos H1 A A 2w1w1T A A 2w1 w1T a1 , w1T a2 ,, w1T an , (3.5.12) Así pues, la columna i-ésima de la matriz B H1 A es a i 2( w1T a i ) w1 a i 1 (u1T a i )u1 , (3.5.13) donde 1 212 s12 s1 a11 1 Notemos que en (3.5.13), es más económico trabajar directamente con 1 y u1 sin formar el vector w1 explícitamente. Observación 3.5.1. La transformación de Householder se generaliza de inmediato al caso de matrices complejos: la matriz H E 2ww* donde Householder. La matriz H es hermitiana y unitaria. ■ 180 w*w 1 se llama transformación de Observación 3.5.2. Se puede hacer un resumen de los esfuerzos computacionales. La factorización QR mediante las transformaciones de Householder requiere 2n3 / 3 O(n2 ) multiplicaciones y 2n3 / 3 O(n2 ) adiciones. Entonces, mientras que el número de adiciones coincide con el del método de las transformaciones de Givens, el número de multiplicaciones es la mitad, es decir, el método nuevo es más económico. Sin embargo, hay situaciones, donde la aplicación de las matrices de Givens es preferible. Para comparar notemos que para reducir una matriz cuadrada de orden n a una forma triangular superior, el método de Gram-Schmidt requiere aproximadamente n3 multiplicaciones/divisiones, mientras que la eliminación de Gauss requiere aproximadamente n3 / 3 multiplicaciones/divisiones (Meyer, 2000). Además, a diferencia de los dos métodos mencionados en último, los métodos de Givens y Householder son incondicionalmente estables. ■ Observación 3.5.3. A pesar de que las factorizaciones de Givens y Householder son estables numéricamente, la eliminación de Gauss es más económica para resolver un sistema de ecuaciones lineales algebraicas. Sin embargo, la factorización QR es la parte básica del algoritmo para resolver el problema espectral completo. ■ Reducción de Householder. El esquema de reducción de Householder tiene el aspecto siguiente (Golub y Ortega, 1992): 1/ 2 n 2 s k sign a kk a lk l k k=1,…,n-1 u kT (0, ,0,a kk s k ,a k 1, k , , a nk ) s 2 s a 1 ; a s k k k kk kk k 181 j k u kT a j j=k+1,…,n .■ a j a j j u k Ejercicios: 1. Demuestre que una matriz P E wwT , donde wT w 1 , es ortogonal sólo si 2 . 2. Sea x y , x que Hx y . 2 y 2 , y y * x es real. Entonces existe tal transformación de Householder H 3. Sea A QR . Demuestre que A * A R * R . La matriz R se llama factor de Cholesky de la matriz A* A . 4. Sea A QR . Demuestre que A F R F donde F es la norma de Frobenius. 5. Sea A una matriz cuadrada. Es bien conocido que existe una matriz no singular S y una matriz triangular superior T tal que T S 1 AS . Usando la factorización QR demuestre el teorema 2.2.2 [Indirecta: use la factorización S=QR]. 6. Realize la factorización QR de la matriz 2 1 1 A 2 3 1 . 1 1 2 7. Sea A una matriz de banda (véase el problema 1 en 3.9). Demuestre que la factorización QR conserva la estructura de banda. 8. Demuestre que la solución un sistema lineal de dimensión n por la factorización QR mediante transformaciones de Householder reqiere 2n3 / 3 O(n2 ) multiplicaciones. 9. (Stoer y Bulirsch, 1993). Sea A1 A una matriz n n tal que 1 2 3 n , donde i son sus eigenvalores y A Y 1 DY , donde Y LYUY y D diag 1,..., n . Sean Ai Qi Ri y Ai 1 Ri Qi . Entonces existen matrices Si diag 1 ,..., n , k 1 , tales que limi Si*Qi Si 1 E y limi Si* Ri Si 1 limi Si*1 Ai Si 1 es una matriz triangular superior con i en su diagonal principal. 182 3.6. Método de Thomas Consideremos ahora un método directo y simple para resolver un sistema de ecuaciones algebraicas lineales de forma ai yi 1 bi yi ci yi 1 fi , i 1, 2,3..., N 1 y0 '0 y1 0 y N N y N 1 N donde y0 , y1 , (3.6.1) (3.6.2) , yN son incógnitas, mientras que ai , bi , ci , fi y '0 , 0 , N , N son parámetros dados (Godunov y Ryabeñkii, 1964; Marchuk, 1982; Volkov, 1990). Se llama método de Thomas (Thomas, 1949) y está basado en la factorización de la matriz tridiagonal del sistema (3.6.1), (3.6.2). El sistema de ecuaciones (3.6.1) a menudo se obtiene al discretizar una ecuación diferencial parcial del segundo grado en los nodos internos de un intervalo, y las ecuaciones (3.6.2) se obtienen al discretizar las condiciones de contorno de Dirichlet, de Neumann, o mixtos en puntos extremos del intervalo. Las ecuaciones (3.6.1) se llaman tripuntuales, ya que cada ecuación enlaza únicamente tres valores desconocidos yi 1 , yi y yi 1 . Además, supongamos que los parámetros del sistema satisfacen las siguientes condiciones: bi ai ci , i 1, 2,..., N 1 , 0 1, N 1 . (3.6.3) (3.6.4) Posteriormente, será mostrado que bajo las condiciones (3.6.3) y (3.6.4) el problema (3.6.1), (3.6.2) tiene una única solución, y el método de Thomas es estable y económico. 183 Se puede escribir el sistema (3.6.1), (3.6.2) en la forma vectorial: donde y y0 , y1 , Ay f (3.6.5) , yN es el vector desconocido (la solución), f 0 , f1 , f 2 , , f N 1 , N es el T T vector dado, y 1 0 a b 1 1 0 a2 A 0 0 0 0 0 c1 b2 0 0 0 0 c2 0 0 0 0 0 a N 1 0 0 0 0 b N 1 N 0 0 0 c N 1 1 (3.6.6) es la matriz tridiagonal de dimensión n+1. Sustituyendo la primera ecuación (3.6.2) en la primera ecuación del sistema (3.6.1), obtenemos a1 0 y1 0 b1 y1 c1 y2 f1 o bien, y1 1 y2 1 (3.6.7) donde 1 c1 a10 f 1 , 1 b1 a10 b1 a10 (3.6.8) Al introducir la expresión (3.6.7), hallada para y1 , en la segunda ecuación del sistema (3.6.1), obtenemos una ecuación que relaciona y2 y y3 , etc. Supongamos que ya hemos obtenido la relación 184 yk 1 k 1 yk k 1 , k N 1 (3.6.9) En la k-ésima ecuación del sistema (3.6.1) introducimos yk 1 en forma de (3.6.9): ak k 1 yk k 1 bk yk ck yk 1 f k Resolviendo esta ecuación respecto a yk obtenemos yk k yk 1 k (3.6.10) donde k ck a fk , k k k 1 bk a k k 1 bk a k k 1 (3.6.11) Por consiguiente, los coeficientes de las ecuaciones (3.6.10) que enlazan los valores contiguos yk y yk 1 (k = 1, 2, ..., N-1) se puede determinar por medio de las relaciones recurrentes (3.6.11), ya que 0 y 0 están dados mediante (3.6.2). Sustituyendo la expresión yN 1 N 1 yN N 1 , deducida de (3.6.10) para k N 1 , en la segunda condición de contorno (3.6.2) obtenemos y N N N 1 y N N 1 N donde N y N son coeficientes definidos por (3.6.2), mientras que N 1 (3.6.12) y N 1 se han calculado por medio de las fórmulas (3.6.11). De la ecuación (3.6.12) hallamos la incógnita yN N N N 1 1 N N 1 185 (3.6.13) Luego, mediante la fórmula (3.6.10) se calculan por sustitución regresiva las demás incógnitas yN 1 , yN 2 , ..., y0 . Notemos que la fórmula (3.6.10) coincide (para k = 0) con la primera condición de contorno (3.6.2). El proceso de cálculo de los coeficientes k y k por medio de las fórmulas (3.6.11) donde k 1, 2,..., N 1, se llama la carrera directa del método de factorización. El otro proceso, la obtención de las incógnitas yk por medio de las fórmulas (3.6.10) y (3.6.13), donde k N 1, N 2,...,0 , se llama la carrera inversa del método de factorización. Estabilidad del método. En virtud de las condiciones (3.6.3) y (3.6.4), los cálculos mediante las fórmulas (3.6.11) y (3.6.13) son correctos, es decir, sus denominadores no se reducen a cero. En efecto, admitamos que para cierto k ( 0 k N 1 ) se verifica la desigualdad k 1 1 . Por ejemplo, 0 1 . En vista de que bk ak ck 0 , utilizando la condición (3.6.3), obtenemos bk a k k 1 bk a k k 1 bk a k 0 (3.6.14) y por tanto, k ck bk ak 1 bk ak k 1 bk ak k 1 De aquí, por inducción se deduce que k 1 (3.6.15) para cada k ( k 0,1,2,..., N 1). Debido a (3.6.15) y (3.6.4), bk a k k 1 0 para cada k, 186 (3.6.16) y 1 N N 1 0 , (3.6.17) es decir, los denominadores de las expresiones (3.6.11) y (3.6.13) nunca se convierten en cero durante el proceso de cálculo. Observación 3.6.1. El método de factorización (3.6.10)-(3.6.13) se puede presentar en la forma matricial: KS1S2 y F (3.6.18) donde K es una matriz diagonal, S 1 es una matriz tridiagonal inferior, y S 2 es una matriz tridiagonal superior. Ejercicios: 1. Sea b1 c1 0 a b 2 A 2 cn1 0 a n bn k bk k 1 ak ck 1 k 2 , una matriz 2k n. tridiagonal, Demuestre y que sean 0 1, k det k 1 b1 , y donde b1 c1 0 a b 2 , 1 k n . k 2 ck 1 0 ak bk 2. Si todos los k det k son distintos de cero, entonces la factorización LU de la matriz A del ejercicio 1 es 187 1 0 a 2 1 A LU 0 0 1 an n2 n 1 1 0 0 0 0 1 0 0 2 . 1 c n 1 n 0 n 1 c1 3. Sea T t ij una matriz tridiagonal n n de Toeplitz (véase el ejercicio 4 en la sección 2.5) y n>2. Demuestre que T 1 es de Toeplitz si y sólo si T es triangular. 4. Resuelve por el método de factorización el problema ( 2) ( x) x ( x) , 0 x 1; (0) 0 , (1) 0 . 5. Resuelve por el método de factorización el problema ( 2) ( x) 2 x (1) ( x) 2 ( x) 4 x , 0 x 1; (0) (1) (0) 0 , (1) 3.718 . 6. Demuestre que la solución general de la ecuación discreta homogenea aii1 bii cii1 0 con los coeficientes variables ai 0 , ci 0 , se puede escribir de la forma i ui vi donde ui y vi son dos soluciones particulares arbitrarias de esta ecuación, para las cuales el determinante u0 u1 v0 v1 es no nulo. 7. Resuelve el problema ai i1 bi i ci i1 f i , ( 0 i N ) con las condiciones de contorno 0 1 u , N N 1 v si los números y son no nulos. 188 3.7. Método de disparo Problema no lineal. Consideremos el problema de contorno para la ecuación diferencial del segundo orden y f ( x, y, y) , a xb (3.7.1) con condiciones de frontera y(a) , y(b) (3.7.2) El método de disparo usa los métodos numéricos desarrollados para resolver problemas evolucionarios, donde las condiciones iniciales en el punto x a se ponen de tal manera que la solución satisface las condiciones (3.7.2). Con este fin, en adición al problema (3.7.1), también consideremos el problema evolucionario y f ( x, y, y) , y(a) , y(a) s (3.7.3) con un parametro s. Geometricamente, el parametro s prescribe la inclinación de la curva de la solución (es decir, la dirección del disparo). Si la función f es continua y satisface la condición de Lipschitz con respecto a y y y , entonces el problema (3.7.3) tiene solución única y( x, s) . Esta solución va a satisfacer la condición y(b) del problema (3.7.1) sólo si F (s) y(b, s) y 0 (3.7.4) Es preciso notar que a condición de que la ecuación (3.7.1) es no lineal, la ecuación (3.7.4) tampoco es lineal. Para encontrar una solución de la ecuación (3.7.4) se usa el método de Newton (véase la seción 9.3). Para calcular la derivada F(s) requerido para el método de Newton, suponemos que la solución y( x, s) es continuamente diferenciable con respecto al parametro s. Denotando v y / s y diferenciando el problema (3.7.3) con respecto a s obtenemos 189 vy ( x, s) f y ( x, y ( x, s), y( x, s )) v( x, s ) f y ( x, y ( x, s ), y ( x, s )) v( x, s ) (3.7.5) y v(a, s) 0 , v(a, s) 1 (3.7.6) F (s) v(b, s) (3.7.7) Ya que el cálculo de la derivada (3.7.7) requiere la solución del problema adicional (3.7.5), (3.7.6) para v, donde y( x, s) es la solución conocida del problema (3.7.3). Notemos que (3.7.3) se resuelve numéricamente y, por lo tanto, y( x, s) está dada sólo en puntos de malla. Resumiendo todo lo anterior, obtenemos el método de disparo que contiene los pasos siguientes (Kress, 1998): 1) elegir una inclinación inicial s; 2) resolver numéricamente el problema (3.7.3) y luego el problema (3.7.5), (3.7.6); 3) si y(b) se satisface con la precisión requerida, entonces parar el proceso; de lo contrario, reemplazar s por s ( y(b) ) / v(b) y luego volver al paso 2. Problema lineal. Aplicamos ahora el método de disparo para resolver el problema lineal (3.6.1)-(3.6.4) (Godunov y Ryabeñkii, 1964; Roberts y Shipman, 1972; Ortega y Poole, 1981). Es preciso notar que en el caso de un problema lineal, el método de disparo se simplifica considerablemente y, en comparación con el método de Thomas (sección 3.6), requiere un poco menos operaciones aritméticas. Sin embargo, como se muestra en el ejemplo siguiente, a diferencia del método de Thomas, el método de disparo a menudo puede ser inestable y por lo tanto inútil. Supongamos que el sistema (3.6.1) y (3.6.2) tiene la forma siguiente an yn 1 bn yn cn yn 1 f n y0 , yN 190 0 n N (3.7.8) 1 1 Describimos el método de disparo. Escogiendo como el primer “disparo” y0 y y1 0 , 1 1 hallamos todos los valores yn usando la ecuación (3.7.19) para índices n 2,..., N . Claro que yn satisface las ecuaciones (3.7.19) y la primera condición y0 , pero generalmente la trayectoria 1 del “disparo” no satisface la segunda condición, es decir, y N (Fig.3.7.1). 1 Fig.3.7.1. Trayectorias yn y yn(2) de dos disparos. Luego, supongamos que y0 , y1 1 , y calculemos de nuevo todos los 2 2 yn(2) usando (3.7.19). De nuevo, la trayectoria del segundo “disparo” yn(2) satisface las ecuaciones (3.7.8) y la 2 primera condición y0 , pero, en general, no satisface la segunda condición, es decir, y N . Consideremos ahora la combinación lineal de dos “disparos”: 2 yn yn 1 yn(2) , 1 n 0,1, 2,..., N (3.7.9) Es evidente, que y0 para cada , y yn satisface todas las ecuaciones (3.7.8). Escogemos ahora con el fin de satisfacer la segunda condición (3.7.2): yN yN 1 yN , 1 2 191 (3.7.10) o bien, y N 2 (3.7.11) y N y N 1 2 Entonces las fórmulas (3.7.9) y (3.7.11) resuelven el problema (3.7.8). En caso de cálculos ideales, sin errores, este algoritmo es bueno. Sin embargo, este es inestable y, por tanto, prácticamente inapropiado para los números N grandes. Consideremos ahora dos ejemplos que demuestran explicitamente la inestabilidad del método de disparo. Ejemplo 3.7.1. Sea a n 1 , bn 26 / 5 , c n 1 y f n 0 en el sistema (3.7.8). En este caso, la solución exacta es 5 N n 5n N 5n 5 n yn N N N 5 5 N 5 5 (3.7.12) Claro que se satisfacen las condiciones (3.6.3) y (3.6.4) y, por consiguiente, sin ningún problema se puede resolver este sistema por el método estable de factorización. Aplicaremos ahora el método 1 de disparo para resolver dicho sistema. Es fácil hallar las trayectorias de dos disparos yn y yn(2) 1 2 1 2 con las condiciones y0 , y1 0 y y0 , y1 1 , respectivamente: yn1 Notemos que max yn 1 n 24 5n 24 52n ; y max yn 2 n yn 2 5 n 25 5 5 5 5 n 24 24 (3.7.13) 1 2 aumentan como 5N . Por eso, los números y N y y N exceden los límites admitidos si N es bastante grande. Esto puede causar la interrupción de 1 cálculos. Aunque dicha interrupción no ocurra y y N y y N se hallan exactamente, hay otro 2 problema grave. Supongamos que al calcular 1- se produce únicamente un error pequeño . 192 Entonces, en lugar de la solución exacta yn calculada según (3.7.9), obtenemos la solución 2 aproximada yn yn donde yn yn . Cuando n ~ N, el error yn es proporcional a 5N . Por eso, si N es grande, entonces el error yN es mucho mayor que el valor y N de la solución exacta acotada que no depende de N ( y N es igual a ). Podemos ver que el método de disparo genera errores grandes por su inestabilidad. ■ Ejemplo 3.7.2 (Kress, 1998). Demostramos ahora que el método de disparo, al aplicarlo para resolver un problema de contorno lineal es inestable. En efecto, el problema de contorno y y 110 y 0 , y(0) y(10) 1 (3.7.14) tiene la solución única y ( x) 110 e 1 (e110 1) e10 x (1 e100 ) e11x 100 e Por otra parte, la solución única del problema de valor inicial y y 110 y 0 , y(0) 1 y y(0) s (3.7.15) asociado con las condiciones iniciales y(0) 1 y y(0) s , es dado por y( x, s) 11 s 10 x 10 s 11x e e 21 21 Si aplicaremos el método de disparo (es decir, usamos la solución del problema (3.7.15)) para obtener la solución de problema (3.7.14), el parámetro s hay que seleccionar de tal manera que y(10, s) 1 , es decir, 11 s 100 10 s 110 e e 1 21 21 Se deduce de aquí que la inclinación inicial exacta s es 193 s 10 21 e 110 e 210 10 1 e 210 Por lo tanto, si los cálculos se realizan con exactitud de diez números decimales, entonces la mejor s a la solución exacta s pertenece al segmento 10, 10 10 9 . Además, aproximación ~ y(10, 10) e100 0 y y (10, 10 109 ) 21 109 100 109 110 e e 2.8 1037 21 21 Así, el método de disparo es inestable, ya que variaciones pequeñas en s causan variaciones enormes en el valor y(10, s) de la solución. ■ Ejercicios: 1. Demuestre que la solución general del problema p q r(x) , (a) 0 , (b) 0 con coeficientes constantes p y q tiene la forma C11 C22 donde 1 y 2 son dos soluciones fundamentales (linealmente independentes) del problema homogeneo ( r( x) 0 ), es una solución particular, y C1 y C2 son constandes arbitrarias. 2. Escribe un programa computacional basado en el uso el método de deferencias finitas para el problema del ejercicio 1. 3. Usando el método de factorización, resuelve el problema del ejercicio 1 con p 0 , q 1 , a 0 , b 1 y r ( x) e x . 4. Usando el método de disparo, resuelve el problema del ejercicio 1 con p 0 , q 1 , a 0 , b 1 y r ( x) e x . Compare la solución con la del ejercicio 3. d x 0 1 x obtenida por d t y 110 1 y el método de disparo con la exacta. [Indirecta: use la solución general del problema: x(t ) 10t 1 11t 1 y (t ) C1e 10 C2 e 11 donde Ci son arbitrarios]. 5. Compare la solución particular númerica del sistema 194 3.8. Método de Thomas en el caso de condiciones periódicas En el proceso de discretización de un problema elíptico de segundo grado unidimensional con las condiciones de contorno periódicas, a menudo obtenemos un sistema de ecuaciones algebraicas lineales ai yi 1 bi yi ci yi 1 fi , i 1, 2,3..., N , (3.8.1) con las condiciones de contorno y0 yN , yN 1 y1 (3.8.2) donde y1 , y2 ,..., yN son incógnitas, y ai, bi, ci, fi son parámetros conocidos. Los problemas de esta forma también se obtienen cuando se aplica el método de separación “componente-porcomponente” para resolver los problemas multidimensionales (véase, por ejemplo, Marchuk y Skiba, 1976, 1992). Se puede escribir el sistema (3.8.1), (3.8.2) de la forma vectorial: Ay f donde y y1 , (3.8.3) , yN es el vector incógnito (la solución), f f1 , T b1 a 2 A 0 c N c1 b2 0 0 0 c2 a N 1 0 0 0 bN 1 aN , f N es un vector dado, y a1 0 c N 1 b N La matriz A es de dimensión N y se diferencia de la matriz tridiagonal 195 T (3.8.4) b1 a 2 B 0 0 c1 b2 0 0 0 c2 a N 1 0 0 0 bN 1 aN 0 0 c N 1 b N (3.8.5) sólo por dos elementos situados en la esquina derecha superior y en la izquierda inferior. Por lo tanto, no se puede usar el método de Thomas en este caso. En este apartado, presentamos una modificación del método de Thomas que permite resolver el sistema lineal con la matriz (3.8.4) sin usar un método iterativo. Definición 3.8.1. Para dos vectores columnas u y v no nulos de n componentes, el producto u v T es una matriz de dimensión n del rango 1 con los elementos u i v j . ■ Sean u (1,0, ,0, c N ) T y vT ( 1 , 0 , ,a10 , dos) vectores que tienen sólo las primeras y las últimas componentes distintas de cero. Se puede presentar la matriz A como A C uv T (3.8.6) C B diag 1,0, ,0,a1c N (3.8.7) donde Si la matriz C es no singular, entonces según la fórmula de Sherman-Morrison (Golub y Ortega, 1992; Stoer y Burirsch, 1993), C uv T 1 C 1 1C 1u v T C 1 (3.8.8) para cada matriz u v T de dimensión n del rango 1, donde 1 1 v T C 1u 196 (3.8.9) Entonces la solución del sistema (3.8.3), es decir, del sistema (C u v T ) y f , (3.8.10) tiene, debido a (3.8.8), la forma siguiente: y C u vT 1 f C 1 f 1 (C 1u ) v T (C 1 f ) x 1 (v T x ) z (3.8.11) donde x C 1 f , z C 1u (3.8.12) y, según (3.8.9), 1 1 v T z (3.8.13) Debido a (3.8.7) y (3.8.5), la matriz C es tridiagonal y, por lo tanto, se puede resolver ambos sistemas Cx f , Cz u (3.8.14) por el método de factorización descrito en § 31. Luego, usando la fórmula (3.8.13) calculamos 1 , y finalmente hallamos la solución requerida y del sistema original (3.8.3) por medio de la ecuación (3.8.11): y x 1 (v T x ) z (3.8.15) Observación 3.8.1. Los sistemas (3.8.14) tienen la misma matriz y, por lo tanto, se puede resolver ambos sistemas simultáneamente (por ejemplo, usando procesadores paralelos). ■ 197 Observación 3.8.2. El algoritmo descrito aquí es un poco más económico que la eliminación de Gauss aplicada a la matriz original A. Ejercicios: 1. Verifique la fórmula (3.8.6). 2. Sea C una matriz no singular n n , y sean u y v dos vectores. Demuestre que 1 T 1 C u vT 1 C 1 C1 uvTvCC1u si v T C 1u 1 . Si v T C 1u 1 entonces la matriz C u v T es singular [Indirecta: encuentre un vector w 0 tal que (C u v T ) w 0 ]. 3. Verifique la fórmula de Sherman-Morrison-Woodbury: C UV T 1 1 C 1 C 1U E V T C 1U V T C 1 donde U y V son dos matrices n m , y UV T es la matriz del rango m. La fórmula de Sherman-Morrison (3.8.8) es un caso particular de esta fórmula cuando m=1. 4. Sea una matriz triangular n n 1 0 0 1 1 0 T (n, ) 0 1 1 que depende de . Encuentre tal que la matriz T (n, ) es singular [Indirecta: Busque la solución periódica no nula x ( x1 ,..., xn ) de la ecuación T (n, ) x 0 . Suponiendo que x0 0 y escriba la ecuación de la forma xi 1 xi xi 1 0 para cada i 1,2,..., n , y use la representación xi sen(i ) y las fórmulas trigonométricas para sen( ) . La respuesta: T (n, ) es singular cuando 2 cos con la particularidad de que sen(n 1) 0 ]. xn 1 0 , 5. Sean A, B, C y D matrices n n , donde A no es singular. Demuestre que A B det A det( D CA1 B) . det C D 198 3.9. Método de cuadrados mínimos En esta sección consideremos el problema Ax b cuando A es una matriz rectangular m n con m filas y n columnas, m n . Aqui hay dos opciones diferentes dependiente del rango de la matriz: rk( A) n o rk( A) n . Definición 3.9.1. Considerando las filas y columnas de A como vectores, designamos por row ( A) y col ( A) los espacios generados por combinaciones lineales de las filas y columnas, respectivamente. ■ Teorema 3.9.1. Sea A una matriz m n . Entonces ker( A) row( A) R n . Demostración. Sea u i la fila i-ésima de A. Según la definición de la multiplicación de una matriz por un vector, v ker( A) si y sólo si del espacio ui , v 0 para cada i. Tomando en cuenta que cualquier vector row ( A) es una combinación lineal de los vectores u i , obtenemos que un vector v row(A) si y sólo si v ker( A) . ■ Corolario 3.9.1. Sea A una matriz m n y rango n. Entonces AT A es una matriz invertible de n n . Demostración. Es suficiente mostrar que ker( AT A) 0 . Sea AT Au 0 . Entonces Au ker( AT ) . Además, Au col( A) row( AT ) . En efecto, u T u1 ,..., un y A a1 an . Por eso Au ui ai col( A) . Como row( AT ) ker( AT ) , obtenemos que i Au row( AT ) row( AT ) 0 199 y, por lo tanto, Au 0 . Ya que rk( A) n , se deduce del Teorema 2.2.5 que null( A) 0 , es decir, ker( A) 0 y u 0 . ■ Teorema 3.9.2. Sea A una matriz de m n y rango n. Entonces, en el espacio R n , la matriz P A( AT A) 1 AT (3.9.1) es el operador de proyección ortogonal sobre el subespacio col( A) . Demostración. Tenemos R n col( A) col( A) . Según el Corolario 3.9.1, la matriz AT A es invertible. Además, se deduce del Teorema 3.9.1 que col( A) ker( AT ) . Por eso, si v col( A) entonces Pv A( AT A) 1 ( AT v ) A( AT A) 1 (0) 0 . Luego notemos que si ai es la i-ésima columna de A, entonces Pai es es la i-ésima columna de PA. Pero PA A( AT A) 1 AT A A y, por lo tanto, Pai ai . Sea u un vector del subespacio u col( A) . Entonces u i i ai y Pu i i Pai i i ai u Tenemos Pv 0 para cualquier vector v col( A) , y Pu u para cualquier vector u col( A) . Así n pues, P : R col( A) es operador de proyección ortogonal. ■ Definición 3.9.2. Sea A una matriz de m n . Un vector u (u1 ,..., un )T R n se llama solución del sistema (posiblemente incompatible) Ax b obtenida por el método de cuadrados mínimos (o simplemente solución de cuadrados mínimos) si Au b min A v b . ■ n 2 vR 200 2 (3.9.2) Recordemos que para qualquier vector v R n , Av col( A) . Esto significa que las soluciones de cuadrados mínimos u corresponden a Au col( A) para los cuales la distancia entre b y Au es mínima. Esto ocurre cada vez cuando Au es la proyección ortogonal Projcol( A) b del vector b sobre el subespacio col( A) . Así, la búsqueda de las soluciones de cuadrados mínimos de la ecuación Ax b es lo mismo que la búsqueda de las soluciones de la ecuacíon Ax Projcol( A) b . Teorema 3.9.3. Sea A una matriz de m n y rango n. Entonces la solución de cuadrados mínimos u R n es única y satisface al sistema Au Pb A( AT A) 1 AT b , (3.9.3) es decir, tiene la forma u ( AT A) 1 AT b . (3.9.4) Demostración. Notemos que u R n y Au col( A) . Claro que la distancia (3.9.2) será mínima cuando Au es la proyección ortogonal Pb del vector b sobre el espacio col( A) . Ya que rk( A) n , la proyección P : R n col( A) se define por (3.9.1) y, por lo tanto, una solución cuadrados mínimos satisface al sistema (3.9.3). Además, bajo la condición rk( A) n , el sistema (3.9.3) tiene una solución única u ( AT A) 1 AT b . ■ Ecuaciones normales. Surge la pregunta: ¿Qué pasa si rk( A) n , es decir, la matriz A en el problema de cuadrados mínimos no tiene rango completo n como se reqiere por el teorema 3.9.3? Esto ocurre, por ejemplo, cuando en el proceso de repitir un experimento muchas veces con las mismas condiciones de entrada obtenemos diferentes resultados. La afirmación siguiente da un 201 sistema compatible alternativo cuyas soluciones son las soluciones de cuadrados mínimos al sistema original. Teorema 3.9.4. Sea A una matriz de m n . Las soluciones cuadrados mínimos del sistema lineal Ax b son las mismas que las soluciones del sistema lineal AT Ax AT b (3.9.5) Demostración. ) Sea u R n una solución cuadrados mínimos del sistema Ax b . Entonces Au Projcol( A) b y, según la definición de la proyección ortogonal, b Projcol( A) b col( A) Pero el Teorema 3.9.1 muestra que col( A) ker( AT ) y, por lo tanto, b Au ker( AT ) . El último hecho demuestra que AT (b Au ) 0 , o bien, AT Au AT b . Por lo tanto, todas las soluciones cuadrados mínimos del sistema Ax b son soluciones del sistema AT Ax AT b . ) Al contrario, sea u R n una solución del sistema AT Au AT b . Entonces Au b ker( AT ) col( A) Ya que Au col( A) y b Au ( Au b ) , por la definición obtenemos que Projcol( A) b Au . El Teorema 3.9.3 muestra que u es una solución cuadrados mínimos del sistema Ax b . ■ Ejemplo 3.9.1 (Meyer, 2000). Determine la línea g (s) p rs que mejor se ajuste a los datos s 1 2 3 4 g(s) 23 27 30 34 en el sentido de los mínimos cuadrados. Entonces 202 1 1 A 1 1 1 2 , 3 4 23 27 b 30 34 p y x r y, según el Teorema 3.9.4, el vector x es la solución del sistema AT Ax AT b : 4 10 p 114 10 30 r 303 La solución es p 19.5 y r 3.6 , es decir, g (s) 19.5 3.6s . Definiendo el error Ax b se puede calcular la suma de los cuadrados de los errores: 4 i 1 2 i T ( Ax b )T ( Ax b ) 0.2 . ■ Observación 3.9.1. La computación y la realización de la factorización LU de la matriz AT A para resolver el problema AT Ax AT b generalmente no son recomendables. Primero, no es T eficiente y, segundo, la computación de la matriz A A puede resultar en la pérdida de información T significativa, ya que el número de condición de la matriz A A es mayor que el de la matriz A (véase (2.4.21)). El enfoque QR no sufre de cualquiera de estas objeciones. Supongamos que A QR es la T T T T T factorización QR de la matriz A. Como A A (QR) QR R (Q Q) R R R y AT RT QT , la ecuación (3.9.5) se reduce a Rx QT b (3.9.6) El sistema (3.9.6) con una matriz triangular superior se resuelve eficientemente por la sustitución regresiva y, por lo tanto, la solución cuadrados mínimos es u ( AT A) 1 AT b ( RT R) 1 (QR)T b R 1 ( RT ) 1 RT QT b R 1QT b . 203 Es preciso notar que el enfoque QR no hace ninguna diferencia, si el sistema es consistente (tiene una solución) o no. ■ Transformaciones de Householder y el problema de cuadrados mínimos. El problema de cuadrados mínimos (3.9.2) se puede resolver por medio de las transformaciones de Householder (3.5.1). Supongamos que la matriz A A( 0) y el vector b b ( 0) se transforman mediante una suseción de las transformaciones de Householder H i : A(i ) H i A(i 1) , b (i ) H i b (i1) (3.9.7) Ya que m n , la matriz final A(n ) tiene la forma A (n) r11 r1n R , donde R 0 0 rnn (3.9.8) es una matriz triangular superior n n . Presentamos el vector h b (n ) de la manera similar: h1 h , h1 R n , h2 R mn . h2 (3.9.9) La matriz P H n H n1 H1 es una matriz unitaria, además, A( n ) H A y h Hb . Por eso, b Ax 2 H (b Ax ) 2 b ( n ) A( n ) x . 2 (3.9.10) Tomando en cuenta (3.9.8) y (3.9.9) obtenemos que el vector b ( n) A( n) x tiene la estructura (n) h (n) 1 Rx b A x . h2 Así, la norma b Ax 2 se minimiza cuando h1 R x 204 (3.9.11) La matriz R tiene una matriz inversa R 1 si y solo si las columnas a1 ,,an de la matriz A son linealmente independientes. La ecuación Ay 0 para y 0 es equivalente a la ecuación HAy 0 y, por lo tanto, a la ecuación R y 0 . Si asumimos que las columnas a1 ,,an de la matriz A son linealmente independientes, entonces el sistema triangular h1 R x tiene una única solución x R 1h1 . El vector x también es la solución cuadrados mínimos del problema dado Ax b . Notemos que hay muchas soluciones si las columnas de la matriz A (y de R) son linealmente dependiente. El residuo es b Ax h2 2 2 .■ (3.9.12) Ejercicios: 1. Demuestre que im( A) y ker( A) son espacios lineales. 2. Sea A una matriz de n n tal que A2 0 . Demuestre que im( A) ker( A) y rk( A) n / 2 . 3. Encuentre el proyector P A( AT A) 1 AT para la matriz 1 1 A 2 3 . 1 0 4. Encuentre la solución cuadrados mínimos del sistema 1 1 51 0 1 x 17 y 1 1 53 1 1 12 [Indirecta: use la factorización QR 0 1 0 1 1 1 2 205 0 2 1 0 0 2 1 .] 5. Sea A una matriz de m n y rango n. Demuestre que P A( AT A) 1 AT es simétrica, además, P 2 P , es decir, la matriz P es el proyector. 6. Sea P una matriz de proyección sobre el espacio R n . Demuestre que E P también es la proyección. 7. (Laub, 2005). Encuentre todas las soluciones del problema de cuadrados mínimos Au b min n Av b 2 vR 2 cuando 1 1 A 1 1 206 y 1 b . 2 3.10. Problemas al capítulo 3 1. Una matriz se llama la matriz banda si aij 0 para i j p . Demuestre que la factorización A LU conserva la estructura de banda de las matrices, es decir, si aij 0 para i j p , entonces lij 0 para i j p y u ij 0 para j i p . 2. Supongamos que la factorización LU se calcula por el método de eliminación de Gauss sin elegir un elemento líder para una matriz real de diagonal dominante por filas. Demuestre que en este caso, el coeficiente de crecimiento de elementos no supera 2: max uij i, j max aij 2. i, j 3. Supongamos que la factorización LU se calcula por el método de eliminación de Gauss sin elegir un elemento líder para una matriz simétrica y definida positiva. Demuestre que en este caso, max uij i, j max aij 1. i, j 4. A veces, la factorización de Cholesky se presenta como A BB T donde B es una matriz triangular inferior con todos los elementos positivos en su diagonal principal (Ciarlet, 1995). Las fórmulas de la factorización A BB T son i 1 bii aii bik2 k 1 Luego 207 para i 1,..., n . j 1 bij aij bik b jk para i j 1,..., n . k 1 b jj Usando estas fórmulas demuestre que la factorización de Cholesky conserva la estructura de banda de las matrices, es decir, si aij 0 para i j p , entonces bij 0 para i j p . 5. La solución del problema Ax b está relacionada estrechamente con la búsqueda de la matriz inversa A 1 (en efecto, formalmente x A1b ). Existe un algoritmo para calcular A 1 (Faddeev y Faddeeva, 1963) que usa la representación de las matrices en la forma de bloques: S A C Demuestre que K S BD 1C B D 1 K y A 1 M L . N , M D1CK , N D CS 1 B L S 1 BN . Así, la búsqueda de la matriz inversa A 1 se reduce a 1 , cuatro problemas con matrices de dimensión más pequeña. 6. Encuentre A 1 por el método del ejercicio 2 para la matriz simétrica S A C B D donde 1.00 0.42 0.54 0.66 , B S , 0.42 1.00 0.32 0.44 0.54 0.32 C , 0.66 0.44 [Resultado: 208 y 1.00 0.22 D . 0.22 1.00 A 1 2.50758 0.12305 1.01148 1.37834 0.12305 1.01148 1.33221 0.26142 0.26142 1.53183 0.44745 0.44560 1.37834 0.44745 . 0.44560 2.00855 Notemos que la inversa de una matriz simétrica también es simétrica, y por lo tanto, M LT ]. 7. Demuestre que si A es una matriz hermitiana tridiagonal, entonces todas las matrices Ak de la transformación QR son también matrices hermitianas tridiagonales. 8. Aplique el algoritmo QR para encontrar todos los eigenvalores de la matriz simétrica 1.00 0.42 A 0.54 0.66 0.42 0.54 0.66 1.00 0.32 0.44 0.32 1.00 0.22 0.44 0.22 1.00 [Resultado: el polinomio característico es 4 43 4.7522 2.111856 0.28615248 y eigenvalores (con la precisión de ocho dígitos en la mantisa son 1, 2,3, 4 2.32274880 , 0.79670669 , 0.63828380 , 0.24226071]. 9. Sea A QR {aij } la factorización QR de una matriz cuadrada de orden n. Demuestre que no debe temer que en el proceso de la factorización, los elementos crecerán, ya que max rij n max aij i, j i, j donde rij son elementos de la matriz R . 10. Para cada matriz simétrica 209 1 1 A ; 1 1 1 0 1 A 0 1 1 ; 1 1 2 1 1 1 A 1 1 1 . 1 1 1 encuentre una matriz ortogonal P tal que PT AP es diagonal. 11. Sea u1 , u2 ,..., un una base ortogonal del espacio real R n . Demuestre la identidad de Parceval: 2 n v v , ui 2 i 1 A 12. Sea una matriz A 1 0 A3 que tiene la forma de bloques. Demuestre que A2 det( A E) det( A1 E) det( A2 E) , es decir, los eigenvalores de A resultan de la unión de los eigenvalores de las matrices A1 y A2 . 13. Demuestre que la matriz 1 2 0 A 1 3 1 0 2 4 puede ser factorizada como 1 0 0 1 2 0 A 1 1 0 0 1 1 . 0 2 1 0 0 2 14. Sea L una matriz triangular inferior y sea U una matriz triangular superior. Además, lij 0 para i j y u ij 0 para i j . Demuestre que en general todos los elementos de la matriz LU son no nulos. 210 15. Encuentre la descomposición PA=LU para las matrices siguientes: 2 6 5 3 0 1 0 0 1 0 0 1 ; A 24 12 41 39 . A ; A 27 18 62 54 1 4 1 1 0 14 15 47 9 16. Sea A aij una matriz n n . Usando la factorización QR demuestre la desigualdad de Hadamard n n det A aij . 2 2 i 1 j 1 17. Sea B [a1 ai1b ai1 an ] la matriz obtenida de una matriz A [a1 ai1 ai ai1 an ] mediante el cambio de la columna i-ésima ai por un vector b . Determine usando la fórmula de Sherman-Morrison condiciones que garantizan la existencia de la matriz inversa B 1 y demuestre que B 1 FA1 donde es una matriz de Frobenius, es decir, la matriz que se difiere de la matriz identidad por una sola columna. 18. Sea A la matriz obtenida de una matriz A mediante el cambio de un solo elemento aij por aij . ¿Para que existe A1 ? 19. Sea A G T B B , C G una matriz real y definida positiva de dimensión n , donde A es una matriz m m . Demuestre que C BT A1B es definida 211 positiva [Indirecta: Divide x x1 conformemente como x y determine x1 para un vector fijo x2 tal que x2 x T Gx x2T (C BT A1B) x2 ]. 20. Supongamos que el algoritmo QR para una matriz cuadrada A converge hacia una matriz triangular superior. Como hallar los eigenvalores de A [Indirecta: Hay que resolver el sistema triangular con la parte derecha nula]. 21. Sea A una matriz definida positiva. Demuestre que ( A1 / 2 ) 1 ( A1 )1 / 2 . 22. Resuelve los sistemas siguientes x1 2 x2 x3 x4 1 x1 2 x2 x3 x4 1 , x1 2 x2 x3 5 x4 5 2 x1 3 x2 x3 5 x4 0 3 x1 x2 2 x3 7 x4 0 4 x1 x2 3 x3 6 x4 0 x1 2 x2 4 x3 7 x4 0 23. Sea V U U un espacio vectorial (véase la definición 1.2.4). Así, x , y 0 si v U y w U . Cada u V tiene una descomposición única u v w . Demuestre que P es el proyector ortogonal sobre U si y sólo si P 2 P PT . 24. Sea P y Q proyectores ortogonales y P Q E . Demuestre que la matriz P Q es ortogonal. 25. Encuentre los eigenvalores de una matriz de Givens y una matriz de Householder. 26. Sea A una matriz simétrica y definida positiva. Demuestre que aii 0 para todos los i. 212 27. Demuestre que una matriz cuadrada real A de orden n es simétrica si y sólo si A tiene n eigenvectores ortogonales. 28. Sea A S iK una matriz hermitiana, donde S es simétrica y K es antisimétrica. Sean u x iy y eigenvector y eigenvalor de A . Demuestre que S K K x x . S y y 29. Demuestre que la matriz hermitiana H E 2ww* es unitaria si y sólo si w*w 1. 30. Sea A una matriz cuadrada real y no singular, y sea B A para 1 . Demuestre que las soluciones de Ax b y ( A B ) y b satisfacen la desigualdad x y x / (1 ) [Notemos la ausencia del número de condición ( A) ]. 31. Demuestre que ( A) max ( A) / min ( A) . 32. Sea A S *S definida positiva. Encuentre la relación entre ( A) y (S ) . 33. Sean A una matriz dada 2 2 , y X una matriz incógnita 2 2 . Demuestre que la ecuación AX XA E no tiene solución. 34. Demuestre que la ecuación AX XA E no tiene solución y en el caso general cuando las matrices A y X del ejercicio 33 son n n . 213 35. Encuentre la solución general de la ecuación 2 i i1 5i . 36. Halle una solución particular de la ecuación 2 i i1 2i [Indirecta: Busque la solución en la forma i C i 2i ]. 37. Sean ui y vi dos soluciones particulares arbitrarias de la ecuación discreta homogenea aii1 bii cii1 0 . Demuestre que el determinante ui ui1 vi vi1 ui vi1 vi ui1 es igual a cero para cada i , o es distinto de cero para todos los i . 38. Demuestre que la solución general de la ecuación discreta homogénea ai i bi i1 0 con los coeficientes variables ai 0 , bi 0 , se puede escribir de la forma i ui donde ui es una solución particular (arbitraria, pero no nula) de esta ecuación, y es una constante. 214 Capítulo 4. Métodos iterativos para sistemas lineales El término "método iterativo" se refiere a una amplia gama de técnicas que utilizan aproximaciones sucesivas para obtener soluciones más precisas para un sistema lineal en cada paso. Técnicas iterativas rara vez se utilizan para la solución de un sistema lineal Ax b si la matriz A tiene una forma especial (por ejemplo tridiagonal, triangular, simétrica, etcétera) o tiene orden pequeño, puesto que el tiempo requerido para alcanzar la suficiente precisión en un proceso iterativo es superior al necesario para las técnicas directas, tales como la factorización de Thomas, la eliminación de Cholesky, etcétera. Sin embargo, para sistemas grandes con un alto porcentaje de elementos nulos de la matriz A, las técnicas iterativas son eficientes en términos tanto de almacenamiento de ordenador y el cálculo. Los sistemas de este tipo surgen con frecuencia en la solución numérica de ecuaciones diferenciales parciales. Cada método iterativo genera una sucesión de soluciones aproximadas x k empezando de un vector inicial x(0) . Para hacer iteraciones es conveniente reescribir el problema Ax b en la forma equivalente x Bx d y luego usar la fórmula x k Bx k 1 d . Ya que el problema es lineal, existen sólo dos opciones: las iteraciones x k convergen hacia la solución exacta x o divergen, además, es preciso notar que la convergencia depende sólo de las propiedades de la matriz B y no depende de la selección del vector inicial x(0) . En este capítulo consideramos sólo los métodos iterativos básicos: el método de Jacobi, el método de Gauss-Seidel, el método de sobrerelajaciones sucesivas, el método de Richardson, y el método de direcciones conjugadas. La evaluación de cada método iterativo se enfoca invariablemente sobre el problema de la rapidez de 215 convergencia de las iteraciones y sobre el problema de la realización del método. El objetivo principal de este capítulo es analizar varios problemas que surgen en las aplicaciones de dichos métodos incluyendo errores de iteración, convergencia de la solución numérica (aproximada) hacia la solución exacta, optimización de un método iterativo con fin de acelerar su convergencia. Este análisis ayudará elegir un método apropiado para resolver un problema particular de álgebra lineal. Sobre este tema se recomiendan los trabajos de Kunz (1957), Faddeev y Faddeeva (1963), van Kempen (1966), Young, 1971, Forsythe et al. (1977), Marchuk (1982), Rutishauser (1990), Golub y Ortega (1992), Stoer y Bulirsch (1993), Ciarlet (1995), Demmel (1997), Kress (1998), Myron y Isaacson (1998). El capítulo se termina por varios problemas presentados en el apartado 4.6. 4.1. Convergencia de las iteraciones Presentamos la matriz A en la forma A M N donde la matriz M no es singular (es decir, su inversa M 1 existe) y rescribimos el sistema original Ax b de la forma equivalente x Bx d (4.1.1) donde la matriz B M 1N y vector d M 1b . La forma (4.1.1) es conveniente para considerar el método de iteraciones sucesivas x k Bx k 1 d , k 1,2,3,... (4.1.2) donde para empezar los cálculos se elige un vector x (0) inicial. Este vector se considera como la aproximación inicial de la solución exacta x* Bx* d del problema (4.1.1), y las iteraciones x k se llaman aproximaciones sucesivas de la solución exacta. La pregunta interesante es: ¿ 216 Cuándo las iteraciones (4.1.2) convergen hacia la solución exacta x* Bx* d ? Exponemos el teorema que proporciona una condición suficiente para la convergencia del método iterativo. Teorema 4.1.1. Si B 1 por lo menos en una norma matricial, entonces el sistema (4.1.1) tiene una sólo solución x* , y las iteraciones x (k ) definidas por la fórmula (4.1.2) convergen hacia la solución exacta x* para cualquier vector inicial x (0) con la velocidad equivalente a la de una progresión geométrica con la razón B . Demostración. La solución exacta satisface la ecuación x* Bx* d (4.1.3) Usando la desigualdad triangular para una norma vectorial, obtenemos x* Bx* d B x* d , es decir, x* d 1 B (4.1.4) De la última desigualdad se deduce la unicidad de la solución del sistema homogéneo x Bx y, por tanto, la existencia y unicidad de la solución x* del sistema (4.1.1) para cualquier término independiente b . Ahora analicemos la convergencia del método. Sea e k x k x* (4.1.5) el error de k-ésima iteración (aproximación). Restando la ecuación (4.1.3) de la ecuación (4.1.2), hallamos 217 e k Be k 1 (4.1.6) y, consiguientemente, e k B k e 0 , donde B k es la k-ésima potencia de la matriz B, y e 0 es el error inicial. Entonces, e k B e k 1 y e k B k e 0 B k e 0 (4.1.7) Debido a la condición B 1 y a la estimación (4.1.7), cuando k aumenta, el error e k x k x* tiende a cero ( e k 0 ) linealmente coma una progresión geométrica con la razón B . Teorema ha quedado demostrado. ■ Observación 4.1.1. Se deduce directamente de (4.1.7) que mientras menor sea la norma B de la matriz, más rápida es la convergencia. Consideremos la situación cuando B es menor que uno, pero cerca a uno; entonces, la convergencia es muy lenta, y el número de iteraciones necesarias para disminuir la norma e k del error e k x k x* depende significativamente del error inicial e 0 . En este caso, es deseable “adivinar” bien el vector inicial x (0) . Sin embargo la elección de dicho vector no tiene importancia si la norma B es pequeña y la convergencia es rápida. ■ Observación 4.1.2. Sea ei(k ) la componente i-ésima del error e k de la iteración k-ésima. Como ei( k ) e ( k ) para cada i , todas los componentes ei(k ) tienden a cero con la misma velocidad: ei( k ) B k e ( 0) . ■ 218 Observación 4.1.3. Recordemos que en un espacio vectorial, dos normas arbitrarias q p y son equivalentes (véase (1.2.22)), es decir, C x p x q K x (4.1.8) p para cualquier vector x del espacio y, en particular, C e (k ) e (k ) p q K e (k ) Así, de la convergencia de las iteraciones en la norma p (4.1.9) p se deduce su convergencia en la norma q , y viceversa. Entonces hay que encontrar sólo una norma matricial apropiada en el sentido de que B 1 . ■ La elección de una norma apropiada de la matriz B requiere una experiencia, como se deduce del ejemplo siguiente. Ejemplo 4.1.1. Sea 3 / 5 3 / 5 B , 2 / 5 1/ 5 la matriz del proceso iterativo (4.1.2). Calculemos la 1-norma y la 2-norma de la matriz. Tenemos 1/ 2 2 6 B 1 max bij 1 , y 1i 2 5 j 1 B F 2 2 2 bij i1 j 1 23 1. 5 Entonces, se puede usar el teorema 4.1.1 con la norma de Frobenius (o con la 2-norma, ya que B2 B F 1 ), mientras que la 1-norma es inútil. Por el contrario, para otra matriz 219 4 / 5 1 / 10 B , 1 / 5 3 / 5 la 1-norma es buena y la norma de Frobenius es inútil, ya que 1/ 2 2 9 B 1 max bij 1 , 1i 2 10 j 1 y B F 2 2 2 bij i1 j 1 21 1 20 Así, en el análisis de convergencia del método iterativo hay que hallar una norma apropiada. ■ Estimación del error de las iteraciones. Ahora derivamos unas estimaciones muy útiles en la práctica que permiten estimar el error de k-ésima aproximación a través de la cercanía de las dos últimos iteraciones x k y x k 1 . Según (4.1.6), tenemos x* x k B( x* x k 1 ) (4.1.10) Restando de las ambas partes de (4.1.10) el vector x k 1 , obtenemos x* x k 1 x k x k 1 B( x* x k 1 ) y, por lo tanto, x* x k 1 x k x k 1 B( x* x k 1 ) x k x k 1 B ( x* x k 1 ) , o bien, x* x k 1 1 k k 1 x x 1 B Además, en virtud de (4.1.10) tenemos 220 (4.1.11) x* x k B x* x k 1 (4.1.12) De las desigualdades (4.1.11) y (4.1.12), obtenemos finalmente la estimación básica x* x k B 1 B x k x k 1 (4.1.13) que permite evaluar el error de k-ésima aproximación a través de la diferencia entre las dos últimas aproximaciones. Lema 4.1.1. Si el radio espectral ( B) 1 entonces ( E B)1 existe y ( E B)1 E B B 2 Bj . j 0 Demostración. Si es eigenvalor del problema espectral Bx x entonces 1 es eigenvalor del problema espectral (E B) x (1 ) x . Pero ( B ) 1 y 1 no es eigenvalor de B y, por lo tanto, 0 no es eigenvalor de E B , es decir existe la matriz inversa ( E B)1 . Sea Sk E B B 2 B k . Entonces ( E B) Sk ( E B B 2 B k 1 ) E B k 1 Bk ) (B B2 La condición ( B) 1 implica limk Bk 0 y, por lo tanto, limk ( E B) Sk E . Así, ( E B)1 limk Sk E B B 2 Bj . ■ j 0 La siguiente afirmación ofrece una condición necesaria y suficiente (es decir, un criterio) para la convergencia del método iterativo. 221 Teorema 4.1.2. Supongamos que el sistema (4.1.1) tiene una sólo solución x* . Entonces las aproximaciones sucesivas (4.1.2) convergen hacia la solución x* para cualquier vector inicial x (0) si y sólo si todos los eigenvalores de la matriz B están dentro de un disco del radio unitario, es decir, si el radio espectral de B satisface la desigualdad ( B) 1. Demostración. Primero supongamos que ( B) 1 . Entonces, x k Bx k 1 d B( Bx k 2 d ) d B 2 x k 2 ( B E )d B k x 0 ( B k 1 B E )d Debido a Lema 4.1.1, limk B k x (0) 0 y lim k x k lim k B k x 0 Bi d ( E B) 1 d i 0 es decir, x k converge a x ( E B) 1 d y x Bx d . Para probarlo contrario, vamos a demostrar que para cualquier u , tenemos lim k B k u 0 , lo que es equivalente a ( B) 1 . Sea u un vector arbitrario, y x sea la única solución de la ecuación x Bx d . Sean x (0) x u , x k Bx k 1 d y x k converge a x . Además, x x k ( Bx d ) ( Bx k 1 d ) B( x x k 1 ) y, por lo tanto, x x k B( x x k 1 ) B 2 ( x x k 2 ) B k ( x x 0 ) B k u k Así pues lim k B k u lim k x x 0 para cualquier u y, por tanto, ( B) 1 . ■ 222 Sin embargo, en general, no es fácil estimar el radio espectral de la matriz B, y por tanto, utilizar el teorema 4.1.2. No obstante, ya sabemos un método iterativo (véase § 5) para calcular ( B) max i ( B) . Además, ahora demostremos que el método iterativo para resolver el sistema i Ax b siempre converge para cada matriz A diagonal dominante. Ejemplo 4.1.2. Sea Ax b un sistema de las ecuaciones lineales algebraicas donde A es una matriz diagonal dominante, es decir, max aij / aii 1 i Presentemos la matriz (4.1.14) j i A D H , donde la matriz A del sistema de la forma D diag a11, a22 ,...,ann es diagonal. Demostramos que el método iterativo (4.1.2) converge hacia la solución única de la ecuación Ax b (4.1.1) para cualquier vector inicial x 0 . En efecto, el sistema original ( D H ) x b se transforma a la forma x B x d donde B D 1 H , y d D 1b . Usando la norma matricial B max bij i y la condición (4.1.14), j i obtenemos B max bij max i i j i j i aij aii 1 (4.1.15) y, por lo tanto, según el teorema 4.1.1, las iteraciones (4.1.2) convergen. ■ Además, notemos que la rapidez de convergencia aumenta junto con la dominación diagonal por la disminución de la norma B . 223 Ejercicios: 1. Demuestre que el comportamiento asintótico del vector de error e k B k e 0 no es peor que ( B) k donde (B) es radio espectral de la matriz B [Indirecta: use la norma euclidiana para los vectores e k y e 0 , y la norma espectral para la matriz B k ]. 2. Demuestre que mientras menor sea el radio espectral (B) de la matriz B, más rápida es la convergencia. [Indirecta: Use Observación 4.1.1]. 3 3. Sea A 1 2 1 3 2 2 2 , donde 0 es un número pequeño, y sea B la matriz B en 3 el método iterativo (4.1.2). Los eigenvalores de la matriz B0 son 0, i, i, y por lo tanto el método iterativo diverge un mínimo. Demuestre que el método iterativo converge si 0 [Indirecta: Use el criterio de Gershgorin (teorema 2.8.2) para estimar los eigenvalores de la matriz B ]. 4. Demuestre que las iteraciones sucesivas convergen para una matriz si y sólo si ellas convergen para su traspuesta. 5. Sea (A) el radio espectral de una matriz A. Demuestre que ( A) 1 si y sólo si lím Ak 0 . k 6. Demuestre que los procesos iterativos x k 1 ( E AB) x k f y convergen o divergen simultáneamente. 224 x k 1 ( E BA) x k f 4.2. Método de Jacobi Consideremos ahora el método de iteraciones simples, o el método de Jacobi. Sea Ax b (4.2.1) un sistema de ecuaciones lineales donde todos los elementos diagonales de la matriz A difieren de cero: aii 0 ( i 1,..., n) . Si dividimos la i-ésima ecuación del sistema (4.2.1) entre aii i 1,..., n , y después trasladamos todas las incógnitas salvo x i a la derecha, entonces llegaremos a un sistema equivalente x Bx d (4.2.2) donde di bi , aii aij / aii , j i B bij , bij , j i 0 (4.2.3) En el método de Jacobi las iteraciones se realizan por medio de la fórmula n xi( k ) b x ( k 1) ij j di j 1 donde xi0 son arbitrarias ( i 1,..., n; k 1,2,... ). Por primera vez el método de Jacobi apareció en el Teorema 4.1.3. De hecho, dicho método se puede presentar en términos de las matrices L, D y U definidas por 0 a 0 L 21 an1 an 2 0 0 , 0 0 a12 0 0 U 0 0 225 a1n a 2 n a n1,n 0 (4.2.4) D diag a11 , a 22 ,, a nn (4.2.5) A L D U (4.2.6) Es evidente que El mètodo de Jacobi es el representante típico de una familia grande de los métodos iterativos de la forma M x k N x k 1 b , (4.2.7) o x k Bx k 1 d , donde A M N , M es no singular, es decir, existe la matriz inversa M 1 . En el método de Jacobi, M D , N L U (4.2.8) y, por lo tanto, B M 1N D1( L U ) , d D 1b . (4.2.9) La pregunta interesante es: ¿Cuándo convergen las iteraciones (4.2.7) hacia la solución exacta x A1b ? Teorema 4.2.1. Supongamos que b es un vector dado de dimensión n, y A M N es una matriz no singular. Si M tampoco es singular, y el radio espectral M 1 N de la matriz M 1 N satisface la desigualdad M 1 N 1, entonces las iteraciones x (k ) definidas por la fórmula (4.2.7) convergen hacia la solución exacta x A1b para cualquier vector inicial x (0) . 226 1 Demostración. Debido a que M N B 2 , la afirmación se deduce directamente del Teorema 4.1.1. ■ Denotando el error de la k-ésima iteración por e k x k x y usando la ecuación Mx Nx b , obtenemos M x k x N x k 1 x . Por lo tanto, k e k M 1 Ne k 1 M 1 N e 0 y k e k M 1 N e 0 M 1 N 2 2 2 k e 0 2 en la norma euclidiana. Observación 4.2.1. Los Teoremas 4.1.1 y 4.2.1 representan resultados teóricos básicos para los métodos iterativos (4.2.7). Notemos que, en general, es difícil aplicarlos para obtener inmediatamente una conclusión sobre la convergencia. En efecto, hay que encontrar una norma apropiada en la cual B 1 . También el radio espectral de la matriz iterativa es normalmente desconocido. Sin embargo, hay clases particulares de matrices para las cuales es bastante fácil comprobar las condiciones de convergencia. ■ La siguiente afirmación generaliza el resultado del Ejemplo 4.1.2. Teorema 4.2.2. Supongamos que la matriz A satisface a una de las condiciones: n r max i a j 1 j i 227 aij ii 1 , (4.2.10) n aij i 1 i j a jj r1 max j n rF i 1 i j n aij 1/ 2 2 aii j 1 j i 1, (4.2.11) 1 . (4.2.12) Entonces el método de Jacobi x k D1L U x k 1 D1b (4.2.13) converge hacia la solución exacta x A1b para cualquier vector inicial x (0) . Demostración. El sistema (4.2.1) tiene a la forma x B x d donde B se define por (4.2.9). Tomando en cuenta que B r , B 1 r1 , y B F rF , obtenemos que las iteraciones convergen según el Teorema 4.2.1, ademas, (4.1.13) estima la rapidez de convergencia: x* x k donde es una de las normas , B 1 B 1 o x k x k 1 F , (4.2.14) , respectivamente. Así, la rapidez de convergencia aumenta con el grado de dominancia de la diagonal principal. ■ Notemos que las condiciones suficientes de convergencia (4.2.10)-(4.2.12) no son equivalentes. Las condiciones (4.2.10) y (4.2.11) significan que n a ij j 1 j i aii para cada i 1,2,..., n , 228 (4.2.15) y n a ij a jj i 1 i j para cada j 1,2,..., n . (4.2.16) En (4.2.15), los elementos de la matriz se suman en cada fila, mientras que en (4.2.16), ellos se suman en cada columna. Así, en términos generales, el método de Jacobi converge para una matriz estrictamente diagonal dominante. Estimación del número de iteraciones. El error de la k-ésima iteración del método x ( k 1) Bx ( k ) d (4.2.17) x k x * B k x 0 x * (4.2.18) se estima como Supongamos que la matriz B de dimensión n tiene n eigenvectores linealmente independientes. Usando la base de los eigenvectores u i del problema espectral Bui i ui , se puede escribir x ( 0) x * n u i i (4.2.19) n x k x * ki i ui (4.2.20) i 1 y, por lo tanto, presentar el error de la forma i 1 Así, para reducir la amplitud i en la i-ésima componente del error inicial x (0) x * por el factor 10 m es necesario hacer k iteraciones, donde k se estima como i 10 m , o k 229 k m lg i (4.2.21) Asintóticamente (para k grande), en la suma (4.2.20) el término con el eigenvalor máximo según módulo es dominante y, por lo tanto, este término se usa para las estimaciones asintóticas. ■ A aij se llama reducible si existen dos Definición 4.2.1. Una matriz n n subconjuntos no vacios G y F del conjunto de número 1,2,..., n tal que GF 0 , G F 1,2,..., n y aij 0 , i G , j F . De lo contrario, la matriz se llama irreducible. ■ Una matriz reducible A, después de reordenar sus filas y columnas, se puede dividir en una matriz en bloques con un bloque no diagonal nulo: A ~ A PT AP 11 0 A21 , A22 donde P es una matriz de permutación. En este caso, la solución del sistema (4.2.1) se reduce a la solución del sistema ~ ~ A~ x b , o A11 0 A21 y w , A22 z f es decir, a dos sistemas más pequeñas con las matrices A11 y A22 : A22 z f y A11 y A21z w . Teorema 4.2.3. Supongamos que la matriz A aij es irreducible y su diagonal principal es débilmente dominante: n a ij j 1 j i aii para cada i 1,2,..., n , 230 (4.2.22) además la desigualdad (4.2.22) es estricta por lo menos para una fila de la matriz. Entonces el método de Jacobi converge hacia la solución unica x A1b para cualquier vector inicial x (0) . Demostración. En efecto, en este caso, B por lo tanto, ( B) B 1 para la matriz de Jacobi B D1( L U ) y, 1 para el radio espectral de B. Supongamos ahora que existe un eigenvalue de B tal que 1 . Supongamos que x 1 para el eigenvector asociado. Entonces, se obtiene de la ecuación x Bx la desigualdad xi n a aij j 1 j i Sea G i : xi 1 . Ya que x tenemos n xj a j 1 j i ii aij ii 1 , i 1,2,..., n (4.2.23) 1 , entonces el conjunto G no es vacio. Para un i de G xi 1 y, por lo tanto, la igualdad tiene lugar en (4.2.23), es decir, n a j 1 j i aij ii 1, i G . Ya que la diagonal principal de la matriz A es débilmente dominante, se deduce de aquí que el conjunto complementario F 1,2,..., n \ G tampoco es vacio. Ya que A es irreducible, existen números i0 G ai0 j0 0 . Usando la desigualdad x j0 1 obtenemos la contradicción 231 y j0 F tales que 1 xi0 xi0 n ai0 j a j 1 j i n xj i0 i0 ai0 j a j 1 j i 1 i0i0 Por lo tanto, ( B) 1 . El teorema queda demostrado. ■ Ejercicios: 1. Aplique el método de Jacobi al sistema 5 x1 2 x3 1 4 x1 8 x2 2 x3 18 5 x2 9 x3 37 y estime el número de iteraciones k necesario para aproximar la solución exacta con la precisión x xk 10 4 . 2. Verifique que el método de Jacobi converge para el sistema x1 2 x2 2 x3 1 x1 x2 x3 3 2 x1 2 x2 x3 5 [Solución: x1 x2 x3 1 (Ames, 1992)]. 2 1 2 3. Demuestre que para la matriz A 1 1 1 el método de Jacobi converge. 2 2 1 2 1 1 4. Demuestre que para la matriz A 2 2 2 , el método de Jacobi diverge. 1 1 2 5. Demuestre que la matriz 0 1 1 2 0 2 1 1 A 1 1 2 0 2 1 1 0 es irreducible y el método de Jacobi diverge. 6. Demuestre que la matriz 232 2 1 0 1 1 2 1 0 A 0 0 2 1 1 0 1 2 es irreducible y no singular. 7. Demuestre que el método de Jacobi converge para una matriz A si y sólo si el converge para la matriz traspuesta AT . 8. Demuestre que el método de Jacobi, en general, no converge para las matrices semidefinidas positivas [Indirecta: construye un contraejemplo usando Corolario 4.3.2 de la sección siguiente]. 9. Supongamos que 1 a A b 1 Sea B la matriz del método de Jacobi. Demuestre que ( B) ab y, por lo tanto, el fortalecimiento de la posición dominante en la diagonal principal (por ejemplo, una disminución en a (o/y en b) causa una más rápida convergencia del método de Jacobi. Entonces, con cambios multidireccionales (por ejemplo, cuando el valor de a aumenta pero el de b crece) la rapidez de convergencia depende del valor ab (Varga, 1962). 10. Demuestre que las iteraciones de Jacobi se puede presentar de la forma x k donde r ( k ) b Ax . 233 k 1 x Hr ( k ) k 4.3. Método de Gauss-Seidel Consideremos ahora otro método iterativo que a veces converge más rápido que el de Jacobi. Se llama el método de Gauss-Seidel (se also Nekrasov, 1982). Suponemos de nuevo que todos los elementos diagonales de la matriz A difieren de cero ( aii 0 , i 1,..., n ) y escribimos el sistema de ecuaciones lineales Ax b (4.3.1) x Bx d , (4.3.2) en la forma (4.2.2): usando la presentación (4.2.4) y (4.2.5) de la matriz A: A L D U (4.3.3) A diferencia del método de Jacobi, ahora tomamos A M N donde M DL , N U (4.3.4) Como resultado, las iteraciones de Gauss-Seidel aceptan la forma vectorial M x k N x k 1 b , (4.3.5) x k Bx k 1 d , (4.3.6) o donde B M 1N ( D L)1U , d ( D L)1b . (4.3.7) Para las computaciones actuales se usa la forma (4.3.5) con la matriz triangular inferior M, ya que k la solución x se encuentra fácilmente por la sustitución directa. 234 Así, las iteraciones en el método de Gauss-Seidel se realizan por medio de la fórmula i 1 xi( k ) n bij x (jk ) j 1 b x ( k 1) ij j di (4.3.8) j i 1 donde xi0 son arbitrarias ( i 1,..., n; k 1,2,... ). A diferencia de las iteraciones de Jacobi, para obtener i-ésimo componente de la k-ésima aproximación en el método de Gauss-Seidel se utilizan inmediatamente todos los componentes x jk ya obtenidos (con j i ). Esto es muy conveniente para cálculos computacionales, ya que los valores nuevos pueden ser almacenados en los lugares ocupados por los valores viejos, lo que reduce los requerimientos de almacenaje. Estudiamos ahora la convergencia de las iteraciones (4.3.5) hacia la solución exacta x A1b . Es evidente que las Teoremas 4.1.1 y 4.2.1 son validos de nuevo con la particularidad de que B se define por (4.3.7). Las condiciones de convergencia de los métodos de Jacobi y de Gauss-Seidel no coinciden, pero se cruzan. En algunos casos, el método de Gauss-Seidel proporciona una convergencia más rápida (Marchuk, 1982; Volkov, 1990; Golub y Ortega, 1992; Ciarlet, 1995). Teorema 4.3.1. Supongamos que una matriz A satisface al criterio de Sassenfeld: p max pi 1 , (4.3.9) 1i n donde n p1 j 2 i 1 a1 j a11 ; pi j 1 aij aii n pj j i 1 aij aii , i 2,..., n . (4.3.10) Entonces el método de Gauss-Seidel converge hacia la solución única de la ecuación (4.3.1) para cualquier vector inicial x 0 . 235 Demostración. Una demostración se puede encontrar en Skiba (2001). Damos ahora otra demostración del teorema (Kress, 1998). Consideremos la ecuación M u N w, (4.3.11) 1 o bien, u M N w . Usando (4.3.4) presentamos (4.3.11) en la forma escalar: i 1 ui j 1 aij aii n uj aij aii j i 1 wj , Suponiendo que w 1 obtenemos por inducción que i 1,..., n ui pi , donde (4.3.10). Tomando en cuenta las condiciones (4.3.9) llegamos al resultado u M 1N p 1 (4.3.12) p i se definen por p . Entonces (4.3.13) y, según el Teorema 4.1.1, el método de Gauss-Seidel converge hacia la solución única de la ecuación (4.3.1) para cualquier vector inicial x 0 . ■ Corolario 4.3.1. Sea A una matriz estrictamente diagonal dominante. Entonces el método de Gauss-Seidel converge hacia la solución única de la ecuación (4.3.1) para cualquier vector inicial x 0 . ■ La última afirmación se puede demostrar independiente del Teorema 4.3.1. En efecto, la matriz de iteraciones en el método de Gauss-Seidel es B ( D L)1U y sus eigenvalores se hallan de la ecuación det[ B E ] det[( D L) 1U E ] det[( D L) 1 ]det[ A ] 0 . 236 donde A U D E . Tenemos det[ A ] 0 . Además, si A L D U es una matriz de diagonal estrictamente dominante, entonces para 1 la matriz A también es diagonal estrictamente dominante y, por lo tanto, es no singular, es decir, det[ A ] 0 . Así 1 , y el método de Gauss-Seidel converge. Ejemplo 4.3.1. La diagonal principal de la matriz tridiagonal 2 1 1 2 1 1 2 1 A 1 2 1 1 2 no es estrictamente dominante, es decir, las condiciones (4.2.15) no se cumlen para A. Sin embargo, ella satisface al criterio de Sassenfeld. En efecto, r 1 , es decir, no se cumple (4.2.10). De otro lado, tenemos p1 1 ; 2 pi 1 1 pi 1 , i 2,..., n 1 ; 2 2 pn 1 pn 1 . 2 Se deduce de aquí por inducción que pi 1 1 2 i , i 1,..., n 1 ; pn 1 1 . 2 2n Por lo tanto, p 1 1 2 n 1 1 y, según el Teorema 4.3.1, el método de Gauss-Seidel converge para la matriz A. Notemos que cuando n es grande, el número p será cerca de uno y, por consiguiente, la velocidad de 237 convergencia será muy lenta. Se indica en la siguiente sección como se puede accelerar la convergencia. ■ Teorema 4.3.2. Sea A una matriz simétrica y definida positiva. Entonces las iteraciones de Gauss-Seidel convergen hacia la solución única de la ecuación (4.3.1) para cualquier vector inicial x 0 . Demostración. Ya que A es simétrica, tenemos U LT y, por tanto, (4.3.3) acepta la forma A L D LT , donde L es una matriz triangular inferior con los elementos nulos en su diagonal principal. Demostramos que todos los eigenvalores de la matriz G M S1 N S ( D L) 1 LT están estrictamente dentro del círculo unitario. Ya que la matriz D es definida positiva, introducimos otra matriz: G1 D1 / 2GD1 / 2 D1 / 2 ( D L) 1 LT D 1 / 2 D1 / 2 ( D L) 1 D1 / 2 D 1 / 2 LT D 1 / 2 D 1/ 2 ( D L) D 1/ 2 1 LT1 ( E L1 ) 1 LT1 (4.3.14) donde L1 D 1 / 2 L D 1 / 2 . Las matrices G y G1 tienen los mismos eigenvalores. En efecto, si G1 x x entonces G( D 1 / 2 x ) ( D 1 / 2 x ) . Por lo tanto es suficiente demostrar que (4.3.15) (G1 ) 1. Supongamos que el eigenvector x en (4.3.15) es unitario, es decir, x * x 1 . Debido a (4.3.14) y (4.3.15) obtenemos ( E L1 ) 1 LT1 x x o bien, LT1 x ( E L1 ) x 238 Entonces x * LT1 x ( x * Ex x * L1 x ) (1 x * L1 x ) Debido a que L1 tiene elementos reales, tenemos LT1 L1 , y si * (4.3.16) x * L1 x a ib , entonces x * LT1 x a ib . Sustituyendo estos valores en la ecuación (4.3.16) obtenemos 2 a2 b2 1 a ib 2 a2 b2 (1 2a) a 2 b 2 (4.3.17) Se deduce de aquí que 1 si 1+2a>0. Demostremos ahora la última desigualdad. Con este fin notemos que positiva, es decir, la matriz D 1 / 2 A D 1 / 2 D 1 / 2 ( L D LT ) D 1 / 2 E L1 LT1 es definida 0 1 x * L1 x x * LT1 x 1 (a ib) (a ib) 1 2a . Por lo tanto, 1 . Según el Teorema 4.1.1, el Teorema 4.3.2 queda demostrado. ■ El Teorema 4.3.2 se usa frecuentemente en los problemas elípticos donde a menudo las matrices son simétricas y definidas positivas. La afirmación del Teorema 4.3.2 también sigue del teorema de Householder-John. Teorema 4.3.3 (de Householder-John). Si A y B son matrices reales tales que tanto A como A B BT son simétricas y definidas positivas. Entonces el radio espectral de la matriz H ( A B)1 B es estrictamente menor que uno: (H ) 1. Demostración. Consideremos problema espectral Hu u Como A es definida positiva, 1 . Por lo tanto, u * Bu 1 Tenemos 239 u * Au y, por tanto, Bu ( A B)u . 0 u ( A B B )u (1 * T 1 2 ) u Au u * Au 2 1 1 1 * ya que B es una matriz real. Ahora 1 implica 1 0 , y recordando que u * Au 0 , vemos que 1 0 . Por lo tanto | λ | <1 o (H ) 1. ■ 2 Es fácil demostrar ahora que Teorema 4.3.2 es un corolario del Teorema de HouseholderJohn. En efecto, A L D U es simétrica y, por lo tanto, A L D LT . Como A es definida positiva entonces D también es definida positiva. Tomando B LT obtenemos T A B BT A L LT D y, por lo tanto, H ( A B)1 B ( D L)1 L ( D L)1 U es la matriz de iteraciones de Gauss-Seidel. ■ Corolario 4.3.2. Si A y 2D A son simétricas y definidas positivas entonces las iteraciones de Jacobi convergen. En efecto, tomando B A D obtenemos A B BT 2 D A y, por lo tanto, H ( A B)1 B D 1 ( L LT ) es la matriz de iteraciones de Jacobi. ■ La afirmación que se formula abajo sin demostración, proporciona condiciones bajo las cuales los métodos de Jacobi y de Gauss-Seidel convergen o divergen simultáneamente. Teorema 4.3.5 (Stein-Rosenberg). 1 Sean BJ D ( L U ) y BGS ( D L) 1U matrices de iteración de los métodos de Jacobi y de Gauss-Seidel con los radios espectrales ( BJ ) y ( BGS ) . Supongamos que todos los elementos de la matriz BJ D 1 ( L U ) no son negativos (véase (4.2.4), (4.25)). Entonces sea ( BGS ) ( BJ ) 0 sea o 240 ( BGS ) ( BJ ) 1 , sea ( BGS ) ( BJ ) 1 sea ( BGS ) ( BJ ) 1 , es decir, ambos métodos convergen o divergen simultaneamente. ■ Ejercicios: 3 2 1 1. Consideremos la matriz simétrica y definida positiva A 2 3 2 (Iserles, 1998). Sus 1 2 3 eigenvalores son 2 y 12 (7 33 ) 0 . Demuestre que el método de Gauss-Seidel para la matriz A converge, y el método de Jacobi diverge [Indirecta: demuestre que ( BGS ) 1 , y ( BJ ) 16 (1 33 ) 1 ]. 2. Demuestre que el método de Gauss-Seidel converge para el sistema 5 x1 3x2 4 x3 12 3 x1 6 x2 4 x3 13 4 x1 4 x2 5 x3 13 mientras el método de Jacobi diverge. [Solución: x1 x2 x3 1 (Ames, 1992)]. 3. El siguiente ejercicio de Collatz (1966) muestra lo contrario. Verifique que el método de Jacobi converge para el sistema x1 2 x2 2 x3 1 x1 x2 x3 3 2 x1 2 x2 x3 5 (véase ejercicio 2 de la sección 4.2), mientras que el método de Gauss-Seidel diverge [Solución: x1 x2 x3 1 ]. 4. Demuestre que para la matriz 2 1 2 A 1 1 1 , 2 2 1 el método de Jacobi converge(véase ejercicio 3 de la sección 4.2), mientras que el de GaussSeidel diverge. 5. Demuestre que para la matriz 2 1 1 A 2 2 2 1 1 2 241 el método de Gauss-Seidel converge, mientras que el de Jacobi diverge (Kress, 1998). 6. Demuestre que la matriz A del ejemplo 4.3.1 es irreducible y su diagonal principal es débilmente dominante implicando la convergence de las iteraciones de Jacobi. 2 1 3 7. Consideremos la matriz A 2 3 2 . Demuestre que el método de Jacobi para la matriz 1 2 3 A diverge marginalmente, mientras que el de Gauss-Seidel converge (Iserles, 1998). [Indirecta: el espectro de la matriz de iteración BJ es 0, i y el espectro de la matriz BGS es 0, 1 54 ( 23 97 0,1 ]. 8. Sea 1 A 1 1 y 1 2 2 (Kress, 1998). Demuestre que método de Gauss-Seidel converge y el método de Jacobi diverge. 9. Sea A L D U una matriz simétrica, U LT . Iteraciones simétricas de Gauss-Seidel se introducen por medio de la siguiente fórmula: x k ( D LT ) 1 L ( D L) 1 LT x k 1 d T 1 1 T La matriz iterativa en este caso es BSGS ( D L ) L ( D L) L . Se obtiene como el resultado de la combinación de las iteraciones de Gauss-Seidel con las matrices M 1 N ( D L)1U y M 1 N ( D U )1 L . Demuestre que si A es simétrica y definida positiva entonces BSGS es también simétrica y definida positiva. 242 4.4. Métodos de relajación Se deduce de los Teoremas 4.1.1 y 4.2.1 y de la estimación (4.1.13) que el radio espectral de la matriz iterativo B (véase (4.2.9) y (4.3.7)) puede ser considerado como una medida de la tasa de convergencia de iteraciones (4.1.2). Por lo tanto, una manera de acelerar la convergencia de la iteración es reducir el radio espectral de la matriz B. El método de Jacobi con relajación. Supongamos que x k es una aproximación a la solución x del sistema lineal Ax b . El vector residual r k 1 b Ax k 1 se puede considerar como una medida de la cercanía de x k a la solución exacta x . Dado que L U D A , el método de Jacobi x k D 1 ( L U ) x k 1 D 1b se puede escribir como x k x k 1 D 1r k 1 (4.4.1) La idea básica de los métodos de relajación es multiplicar el término residual r k 1 b Ax k 1 por un factor de peso. En ciertos casos, tal modificación simple puede acelerar considerablemente la taza de convergencia del método (Forsythe et al., 1977; Marchuk, 1982; Stoer y Bulirsch, 1993; Morton y Mayers, 1994; Ciarlet, 1995; Iserles, 1998; Kress, 1998). Definición 4.4.1. El método x k x k 1 D 1r k 1 x k 1 D 1 (b Ax k 1 ) o en componentes 243 (4.4.2) xi( k ) xi( k 1) bi aii aij x (jk 1) , i 1,..., n; k 1,2,... j 1 n (4.4.3) es conocido como el método de Jacobi con relajación. El peso 0 se llama el parámetro de relajación. ■ Evidentemente, el método de Jacobi corresponde al caso 1 . Notemos que si iteraciones con relajación (4.4.2) convergen, entonces ellas convergen hacia la solución de la ecuación original Ax b . Teorema 4.4.1. 1 Supongamos que la matriz de Jacobi B D ( L U ) tiene eigenvalores reales y ( B) 1 . Entonces el radio espectral de la matriz de iteración B E D 1 A E D 1 ( D L U ) (1 ) E D 1 ( L U ) (1 ) E BJ (4.4.4) en el método de Jacobi con relajación se hace mínimo para el parámetro de relajación óptimo opt 2 2 max min (4.4.5) y tiene valor ( E opt D 1 A) donde max min , 2 max min (4.4.6) m a x y min son eigenvalores máximo y mínimo de B, respectivamente. En el caso cuando min max , la convergencia del método (4.4.2) con opt es más rápido que la del método de Jacobi (4.4.1). 244 Demostración. Para 0 la ecuación Bw w es equivalente a B w (1 ) E B w 1 w Ya que el eigenvalor de la matriz B corresponde al eigenvalor 1 de la matriz B , los eigenvalores de B son reales, con el eigenvalor mínimo igual a 1 min y eigenvalor máximo igual a 1 max . Evidentamente que el radio espectral ( B ) se hace mínimo si min ( B ) max ( B ) : 1 opt opt min 1 opt opt max . De aquí se deduce tanto el valor óptimo (4.4.5) del parámetro como el radio espectral (4.4.6). El teorema queda demostrado. ■ El método de Gauss-Seidel con relajación. Si aplicamos la matriz D L a la fórmula de Gauss-Seidel x k ( D L) 1 Ux k 1 ( D L) 1 b (véase (4.3.6)-(4.3.7)), obtenemos ( D L) x k Ux k 1 b o x k D 1Ux k 1 D 1L x k D 1b Ya que D 1Ux k 1 x k 1 D 1 ( D U ) x k 1 , el método de Gauss-Seidel se puede escribir como x k x k 1 D 1[b Lx k ( D U ) x k 1 ] Definición 4.4.2. El método 245 (4.4.7) x k x k 1 D 1[b Lx k ( D U ) x k 1 ] , (4.4.8) o en componentes (k ) i x ( k 1) i x i 1 bi a x aii j 1 (k ) ij j aij x(jk 1) , i 1,..., n; k 1,2,... j i n (4.4.9) es conocido como el método de Gauss-Seidel con relajación, o el método de sobrerrelajación sucesiva (el método de SOR (successive overrelaxations). El parámetro se llama factor de relajación. El método de Gauss-Seidel corresponde al caso 1 . ■ La ecuación ( D L) x ( k ) [(1 ω)D U ) ]x ( k 1) b (4.4.10) con la matriz triangular inferior se usa para hallar x (k ) . De (4.4.10) obtemenos que la matriz de iteración del método de SOR es B( ) ( D L) 1[(1 ω)D U ) ] (4.4.11) A diferencia de la matriz (4.4.4) en el método de Jacobi con relajación, la matriz (4.4.11) ya depende del parámetro de relajación de una manera no lineal. Esto hace el análisis de convergencia del método de SOR más complicado. La siguiente afirmación dice que el parámetro óptimo opt hay que buscar en el segmento 0 2 . Teorema 4.4.2 (Kahan). El método del SOR diverge fuera del intervalo 0 2 . Demostración. Tomando en cuenta que L y U son triangulares tenemos detD L 1 det D 1 , det1 D U det1 D (4.4.12) y, por consiguiente, det B( ) det D 1 det1 D (1 ) n . 246 (4.4.13) Si la multiplicidad geométrica de cada eigenvalor i ( B( )) de la matriz B() es uno, entonces det B( ) 1 ( B( )) 2 ( B( )) n ( B( )) . (4.4.14) Comparando (4.4.13) con (4.4.14) obtenemos que 1 max i ( B( )) (4.4.15) 1in y, según el Teorema 4.1.1, el método de SOR (4.4.10) converge si max i ( B( )) 1 . Entonces, 1in 1 1 es la condición necesaria para la convergencia del método y, por tanto, el método del SOR diverge fuera del intervalo 0 2 . ■ En general, la condición 0 2 no garantiza la convergencia del método de SOR. Sin embargo, para algunas clases de matrices el método de SOR converge para cualquier parámetro de relajación del intervalo 0 2 . Teorema 4.4.3 (Ostrowski). Si la matriz A del sistema Ax b es hermitiana y definida positiva, entonces el método de SOR converge hacia la solución única x para cualquier del intervalo 0 2 y cualquier vector inicial x 0 . Demostración. Sea un eigenvalor de B() con eigenvector u , es decir, [(1 ω)D U ) ]u (D L) u . Usando las relaciones 2[(1 ω)D U ) ] (2 )D A (U L) y 2[D L) ] (2 )D A (U L) obtenemos [(2 )D A (U L) ] u [(2 )D A (U L) ] u . 247 Tomando el producto escalar euclidiano con u nos lleva a (2 )d a i r , (2 )d a i r donde a Au , u , d Du , u , r i (U L)u , u . La matriz A es hermitiana y definida positiva, por lo tanto, a 0 , d 0 y r es real. Para cualquier del intervalo 0 2 tenemos (2 )d a (2 )d a , es decir, 1 y la convergencia del método de SOR en el intervalo 0 2 se deduce del Teorema 4.1.1. ■ En la práctica, en general, no es fácil elegir un valor óptimo del parámetro para acelerar la convergencia del proceso iterativo. Normalmente opt se encuentra sólo aproximadamente probando varios valores de y observando el efecto sobre la velosidad de convergencia. Sin embargo, para algunas clases de matrices existen resultados exactos sobre el parámetro óptimo opt para las iteraciones. Definición 4.4.3. Una matriz A L D U con la diagonal principal D (véase (4.2.4)(4.2.6)) se llama coherentamente ordenada (consistently ordered) si los eigenvalores de la matriz C ( ) D 1L 1 D 1U no dependen de , donde es un número complejo no nulo. ■ 248 (4.4.16) Ejemplo 4.4.1. Demostramos ahora que cualquier matriz tridiagonal n n con elementos diagonales no nulos es coherentamente ordenada. Presentamos la como A L D U . Introduciendo la matriz diagonal S ( ) diag(1, , 2 ,, n1 ) obtenemos S ( ) C (1) S ( ) 1 C ( ) , es decir, todas las matrices C( ) son semejantes y, por tanto, tienen los mismos eigenvalores. ■ Ejemplo 4.4.2 (Stoer y Bulirsch, 1993). Sea D1 A 21 A A12 AN , N 1 AN 1, N DN una matriz tridiagonal en bloques con matrices diagonales no singulares Di ( i 1,..., N ). Entonces las matrices 0 1 D11 A12 1 D2 A21 C ( ) 1 DN11 AN 1, N DN1 AN , N 1 0 obedece la relación S ( ) C (1) S ( ) 1 C ( ) con E1 E2 , S ( ) N 1 EN 249 donde Ei son matrices identidades. Así, la matriz A es coherentamente ordenada. Notemos que cualquier matriz tridiagonal en bloques tambien es coherentamente ordenada. ■ Teorema 4.4.4 (Young, 1971). Supongamos que A es una matriz coherentamente ordenada, y todos los eigenvalores de la matriz de Jacobi B D 1 ( L U ) son reales con el radio espectral [ D 1 ( L U )] 1 . Entonces el método de SOR converge para todos los 0 2 . El radio espectral de la matriz de iteración en el método de SOR (4.4.11) es mínimo para opt 2 (4.4.17) 1 1 2 y tiene valor [ B( opt )] 1 1 2 1 1 2 . (4.4.18) Demostración. Debido a que ( E D 1L) no es singular, se deduce de la ecuación ( E D 1L) [ E B(ω) ] ( E D 1L) D 1[(1 ) D ωU ] 1 ( 1) E D 1L D 1R que 0 es un eigenvalor de la matriz B() si y sólo si 1 es un eigenvalor de la matriz 250 (4.4.19) D 1L 1 D 1U . Ya que A es coherentamente ordenada, se deduce de aquí que 0 es un eigenvalor de B() si y sólo si es un eigenvalor de la matriz B D 1 ( L U ) . Resolviendo la ecuación cuadrada 1 , obtenemos 2 2 1 2 4 2 . Poniendo 1 en la Definición 4.4.3 obtenemos que si es un eigenvalor de D 1 ( L U ) , entonces también es un eigenvalor de la matriz D 1 ( L U ) . Ya que estamos interesando sólo en el radio espectral de B() nos limitamos sólo por considerar 2 2 1 2 4 2 . Debido a que 1 , la ecuación cuadrada 22 4 4 ( 0 )( 1 ) 0 tiene dos soluciones reales 0 2 1 , y sólo uno de ellas pertenece al intervalo (0,2) , a saber, 0 2(1 1 2 ) 2 2 1 1 2 1 Si 0 0 ( ) entonces 22 4 4 ( 0 )( 1 ) 0 y 251 (4.4.20) 22 ( ) 1 2 4 Si 0 ( ) 2 2 , 0 0 ( ) (4.4.21) entonces 22 4 4 ( 0 )( 1 ) 0 y los eigenvalores son complejos con ( ) 1 , 0 ( ) 2 (4.4.22) Entonces 2 2 1 [ B( )] 2 4 1 2 , 0 0 ( ) , , 0 () 2 . (4.4.22) Notemos que ( ) crece monótonamente con en el intervalo 0 0 ( ) , mientras que en el intervalo 0 ( ) 2 , ( ) no depende de . Tambien notemos que para la función f ( ) 2 2 2 4 1 f (0) 1 y f ( ) 2 2 0. 2 2 2 2 4 4 La última desigualdad se deduce de 2 (4 4 2 2 ) 4 42 2 4 (2 2 ) 2 0 . Entonces el radio espectral (4.4.22) decrece monótonamente para 0 0 y crece monótonamente para 0 2 (véase Fig. 4.4.1). Ya que [B(0)] [B(2)] 1 , obtenemos que [B()] 1 para cualquier (0,2) y el valor mínimo [ B( 0 ()] 0 () 1 del radio espectral [ B( )] se alcanza para 0 () . ■ 252 Fig. 4.4.1. El radio espectral para el método de SOR. Corolario 4.4.1. Bajo las condiciones del Teorema 4.4.4, el método de Gauss-Seidel converge dos veces más rápido que el de Jacobi. Demostración. De (4.4.19) se deduce que 2 para 1 , es decir, tenemos [ B(1)] 2 [ D 1 ( L U )] para los radios espectrales [B(1)] y [ D 1 ( L U )] de las matrices de iteración de GaussSeidel y de Jacobi, respectivamente. Ahora la afirmación se deduce de (4.1.7). ■ Ejemplo 4.4.3. Consideremos la matriz tridiagonal n n A del ejemplo 4.3.1. Usando la fórmula 1 j (k 1) 1 j (k 1) j jk , sen sen cos sen 2 n 1 2 n 1 n 1 n 1 se puede demostrar que la matriz de Jacobi 253 0 1 1 0 1 1 0 1 1 D 1 ( L U ) 2 1 0 1 1 0 para A tiene eigenvalores j cos j n 1 , ( j 1,..., n ) y eigenvectores asociados u j con componentes u j ,k sen jk n 1 , ( j 1,..., n ; k 1,..., n ). Por lo tanto, el radio espectral de la matriz de Jacobi es [ D 1 ( L U )] cos n 1 1 2 2(n 1) 2 y, según el Teorema 4.4.4, opt 2 1 sen n 1 y [ B ( opt )] 1 sen n 1 1 2 . n 1 1 sen n 1 En particular, si n=44 (Golub y Ortega, 1992), entonces 0.9976 , opt 1.87 , y [ B(1)] 2 0.995 , [ B( opt )] opt 1 0.87 . Ya que [ B ( opt )] 30 , el método de SOR para la 254 matriz A converge quince veces más rápido que el de Gauss-Seidel y treinta veces más rápido que el de Jacobi. Y si n=30 (Kress, 1998), entonces 0.9949 , [ B(1)] 2 0.9898 , [ B( opt )] opt 1 0.816 y [ B( opt )] 40 , es decir, el método de SOR converge cuarenta veces más rápido que el de Jacobi. ■ Ejercicios: 1. Demuestre que 1 1 0 A 1 1 0 1 1 1 es coherentamente ordenada. 2. Demuestre que los métodos de relajación convergen para la matriz 3 1 0 0 0 1 1 3 1 0 1 0 0 1 3 1 0 0 A . 0 0 1 3 1 0 0 1 0 1 3 1 1 0 0 0 1 3 3. Sea A una matriz hermitiana del sistema Ax b , y sea 0 min max su intervalo espectral. Encuentre la condición para ( A) max / min (el número de condición de A) que garantiza la convergencia y estabilidad del método x k 1 x k k ( Ax ( k ) b ) para la elección arbitraria del parámetro j 1 / j , min j max , j=1,2,3,…, n , n es arbitrario. 4. Sea A una matriz simétrica y definida positiva, y sea B una matriz diagonal y definida positiva. Analice la convergencia del proceso iterativo x k 1 x k B 1 ( Ax ( k ) b) . [Indirecta: el método iterativo es equivalente al método de Jacobi con la matriz E B1 A ]. 5. Compare la convergencia de los tres métodos (de Jacobi, Gauss-Seidel y SOR con 1.8 ) para el sistema del Ames (1992) 4 x1 x2 1 x1 6 x2 2 x3 0 . 2 x2 4 x3 0 255 4.5. Métodos de minimización Cada matriz definida positiva A determina un A-producto escalar y una A-norma en el espacio vectorial real: x, y A Ax , y , x A Ax , x (4.5.1) donde x , y y * x es producto escalar euclidiano. En otras palabras, A determina una métrica que satisface a todos los axiomas de la métrica euclidiana. Por ejemplo, para el A-producto escalar tenemos: (1) x, x A (2) x , y 0 , además, A (3) x y, z (4) x, y A x, y A x, z y, x A A x, x A 0 si y solo si x 0 ; y ,z A; A . La A-métrica (A-distancia) entre dos vectores x y y se introduce como A ( x, y) x y A x y, x y 1/ 2 A (4.5.2) Algunos métodos iterativos para resolver el sistema Ax b (4.5.3) se pueden derivar usando los métodos de minimización. Sea A una matriz simétrica y definida positiva. En este caso, la función cuadrática (funcional) q ( x ) Ax , x 2 b , x x , x 2 b ,x A (4.5.4) alcanza su mínimo en el punto x x* , donde x* es la solución exacta del sistema (4.5.3) (Kantorovich, 1945, 1947; Ames, 1992). En efecto, 256 x* x 2 A A( x* x ), x* x Ax , x 2 b , x Ax* , x* q ( x ) x* y, por lo tanto, q(x ) alcanza su valor mínimo x* 2 A 2 A x* , Ax* A1b ,b b 2 A1 cuando x x* A1b es la solución. Ya que la función (4.5.4) y la A-norma del error en la solución x* x A estan relacionadas mediante la fórmula x* x la minimización del error x* x A 2 A q( x ) x* 2 A , (4.5.5) es equivalente a la minimización de q(x ) . Varios procesos iterativos basados en los métodos de minimización se puede escribir de la forma x k 1 x k k p ( k ) (4.5.6) donde p (k ) es un vector de dirección. Si el vector p (k ) está dado, entonces se puede elegir k con el objetivo de minimizar la función (4.5.4) a lo largo de la línea x k k p (k ) , es decir, q( x k k p ( k ) ) min q( x k p ( k ) ) (4.5.7) Para x k y p (k ) fijos, q ( x k p (k ) ) es la función cuadrática de . Usando el término residual (el error de aproximación) r ( k ) b Ax ( k ) (4.5.8) obtenemos q( x ( k 1) ) q ( x ( k ) k p ( k ) ) Ax ( k ) k Ap ( k ) , x ( k ) k p ( k ) 2 b , x ( k ) k p ( k ) Ax ( k ) , x ( k ) 2 b , x ( k ) 2 k Ax ( k ) , p ( k ) k2 Ap ( k ) , p ( k ) 2 k b , p ( k ) q( x ( k ) ) 2 k p ( k ) ,r ( k ) k2 Ap ( k ) , p ( k ) 257 2 p(k ) , r (k ) (k ) q( x ) ( k ) ( k ) Ap ( k ) , p ( k ) Ap , p p(k ) , r (k ) k ( k ) ( k ) Ap , p 2 . Entonces q( x ( k 1) ) alcanza su valor mínimo p(k ) , r (k ) k 1 k q( x ) q( x ) ( k ) ( k ) p ,p 2 (4.5.9) A cuando p(k ) , r (k ) p(k ) , r (k ) k (k ) (k ) (k ) (k ) Ap , p p ,p (4.5.10) A Debido a (4.5.5) y (4.5.9) se obtiene x* x k 1 2 A x* x k 2 A p(k ) , r (k ) p(k ) , p(k ) 2 . (4.5.11) A Por lo tanto, si p (k ) no es ortogonal al vector residual r (k ) entonces p ( k ) , r ( k ) 0 , y la convergencia de las iteraciones es monótona, es decir, cada aproximación siguiente x k es más cerca a la solución exacta x* . Hay varias maneras para elegir el vector p (k ) . Consideraremos aquí sólo tres opciones. Método del gradiente. Una de las opciones es calcular la dirección de descenso más rápido de q(x ) en el punto x k . Es la dirección gradq( x ) x x k 2( Ax ( k ) b ) 2r ( k ) , donde r (k ) es el error de la k-ésima aproximación calculada mediante (4.5.8) (Fig.4.5.1). Al elegir p ( k ) rk en (4.5.6), obtenemos el método del gradiente, o el método de descenso más pronunciado (rápido): 258 x k 1 x k k (b Ax ( k ) ) (4.5.12) Fig.4.5.1. El método del gradiente. donde, según las fórmulas (4.5.10) y (4.5.9), r (k ) , r (k ) k (k ) (k ) r ,r (4.5.13) A y r (k ) , r (k ) k 1 k q( x ) q( x ) ( k ) ( k ) r ,r 2 A es el valor mínimo de q( x ( k 1) ) . Debido a (4.5.11), se obtiene x* x k 1 2 A x* x k 259 r (k ) , r (k ) (k ) (k ) A r ,r 2 2 . A (4.5.14) Entonces la convergencia es siempre monótona. Se deduce de las fórmulas (4.5.6), (4.5.8) y (4.5.13) que los términos residuales de dos iteraciones consecutivas son ortogonales: r ( k 1) , r ( k ) r ( k ) k Ar ( k ) , r ( k ) r ( k ) , r ( k ) k Ar ( k ) , r ( k ) 0 . Sin embargo, la sucesión de los vectores r (k ) ( k 0,1, 2, ... ) no es linealmente independiente. El método del gradiente está estrechamente relacionado con el de Jacobi. Su velocidad de convergencia normalmente es lenta. Las aproximaciones x k convergen hacia la solución exacta con la velocidad lineal (es decir, como una progreción geométrica) (Kantorovich, 1947; Faddeev y Faddeeva, 1963). En efecto, según (4.5.12), el error e k x k x* satisface e k 1 ( E k A)e k . Si i son eigenvalores de A entonces i 1 k i son eigenvalores de G E k A . La convergencia tiene lugar si el radio espectral de G satisface la condición (G) 1 , es decir, k tiene que pertenecer al intervalo 0 k 2 / max i . Y si deseamos acelerar la convergencia i entonces hay que elegir k tal que max 1 k i min . i Por ejemplo, a i b para todos los i ( 0 a b ). El valor máximo de 1 k i se alcanza en los puntos extremos: i a o i b . La mejor elección es cuando max 1 k a , 1 k b es mínimo, es decir, cuando 1 k a (1 k b) , o k 1 k i 1 k a 2 . Con este valor tenemos ab ba ba y, por consiguiente, se deduce de la ecuación para los errores e k x k x* que 260 e k 1 donde ( A) b / a max i / min i i i 2 A 1 1 2k e k 2 A , (4.5.15) es el número de condición de la matriz A. Ya que a menudo 1 entonces el factor ( 1) / ( 1) es muy cerca a uno, y la convergencia es lenta. Ames (1992) destaca que el método del gradiente y el de SOR reqieren aproximadamente el mismo número de iteraciones. Sin embargo, el método de SOR se recomenda en lugar del método del gradiente, ya que es más simple y reqiere menos almacenamiento. ■ Método simple. Se puede usar una estrategia muy simple cuando p (k ) se elige como uno n de los vectores unitarios básicos ei i 1 : k 1 T ek 0,...,0,1,0,...,0 , ( k 1, ,n ) (4.5.16) con una sola componente no nula (igual a uno) en la k-ésima posición. Por ejemplo, si p ( k ) ek 1 , k 0 ,1, ,n-1 , (4.5.17) y k se elige mediante la fórmula (4.5.10), entonces n pasos según (4.5.6) son equivalentes a una iteración del método de Gauss-Seidel. ■ Antes de considerar el tercer método (de gradiente conjugado) describimos el método de A-ortogonalización que representa una generalización del método de ortogonalización de GramSchmidt. n A-ortogonalización. Sea A una matriz definida positiva, y sea ui i1 un sistema de funciones linealmente independientes. Entonces se puede construir un sistema A-ortogonal vi in0 : 261 vi , v j A Avi , v j 0 , i j (4.5.18) k Ponemos primero v1 u1 . Suponiendo que el sistema ortogonal vi i 1 ya está construido, el siguiente vector ortogonal vk 1 se busca de la forma k vk 1 uk 1 akivi . (4.5.19) i 1 k En virtud de que los vectores vi i1 son A-ortogonales, obtenemos que uk 1 , vi A uk 1 , vi aki 2 vi , vi A vi A A ( i 1,2,..., k ). (4.5.20) n n A veces, en lugar de vi i1 es conveniente construir una base A-ortonormal wi i 1 . Con este fin, despues de hallar cada vector vi se calcula el vector wi vi / vi tanto, aki u k 1 , wi A A con wi A 1 y, por lo .■ Método del gradiente conjugado. El método del gradiente conjugado es un método eficaz para sistemas simétricos definidos positivos (Bakhvalov, 1973). En el proceso de realizar la k-ésima iteración con este método, el vector de dirección p (k ) se elige de tal manera que es A- ortogonal a todos los vectores anteriores p ( j ) : p (k ) , p ( j ) A p ( k ) , Ap ( j ) 0 , j 0,1, 2,..., k 1 (4.5.21) Los vectores p (k ) tal definidos se llaman vectores conjugados (con respecto a A). Los vectores conjugados p (k ) se puede construir mediante A-ortogonalización (4.5.18)-(4.5.20) del sistema ortogonal de los vectores unitarios básicos (4.5.16). Notemos que los vectores conjugados p (k ) forman una base A-ortogonal en el espacio vectorial. Por lo tanto, si k se eligen por (4.5.10) entonces las iteraciones (4.5.6) convergen hacia la solución exacta x* en n pasos como máximo, 262 donde n es la dimensión de la matriz A. Esta propiedad del método de direcciones conjugadas es de gran importancia teórica, ya que demuestra que los dos grupos de métodos, los exactos y los iterativos, usados para resolver un sistema de ecuaciones lineales algebraicas se crusan, es decir, no son totalmente distintos. Sin embargo, del punto de vista práctico, esta propiedad es poco útil, ya que los errores de redondeo no permiten obtener la solución exacta. Además, si la dimensión n de la matriz es grande, entonces a veces es necesario hacer muchas iteraciones ( k n ) y, por lo tanto, otros métodos iterativos pueden ser más económicos, ya que convergen más rápido (después de un número más pequeño de iteraciones). Las iteraciones del método del gradiente conjugado convergen bastante rápido cuando la matriz A es cerca de la matriz identidad en el sentido de que la matriz A E tiene rango pequeño (véase Definición 2.2.10). Teorema 4.5.1. Sea A E B es una matriz cuadrada, simétrica y definida positiva. Si rk (B) r entonces las iteraciones del método del gradiente conjugado convergen por no más de r pasos. Demostración. Denotamos por S k span{b , Ab , A2b ,..., Ak 1b} el conjunto de todas las combinaciones lineales finitas de los vectores b , Ab , A2b ,..., Ak 1b . Entonces se deducede la igualdad rk (A - E) r que dim ( Sk ) r para todos k. Dado que span{ p (1) , p (2) , ..., p ( k ) } Sk y vectores p(i ) son linealmente independientes, las iteraciones no pueden durar más de r pasos. ■ La velocidad de convergencia de todos los métodos iterativos que hemos presentado y, en particular, del método del gradiente conjugado, dependen del número de condición ( A) de la matriz A. Con objeto de reducir este número, se puede utilizar la técnica de precondicionamiento. Sea Q una matriz cuya inversa Q1 exista y sea fácil de calcular, entonces 263 Ax b Q 1 AQ 1Qx Q 1b y x se puede determinar resolviendo los siguientes problemas By Q 1b , Qx y donde B Q1 AQ1 y Q se debe elegir de tal forma que ( B) ( A) . Ejercicios: 1. Sea Aui i ui el problema espectral para una matriz simétrica n n A. Supongamos que n todos sus eigenvalores son diferentes: i j . Sea x ai ui donde ai 0 para cada i. i 1 Demuestre que el sistema x, Ax, A2 x,, An1 x es linealmente independiente. 2. Usando la base ortogonal p0 , p1 ,, pn del ejercicio 2, encuentre la solución del problema Ax b . 3. Demuestre que la función cuadrática (4.5.4) se puede escribir como q( x p) p* Ap 2 2 p* (b Ax ) x * (2b Ax ) Minimice este función de para x x k y p p k con el fin de obtener (4.5.10). 4. Considere el método simple (4.5.17) y elige k por la fórmula (4.5.10), k 1,2,..., n 1 . Demuestre que n pasos según (4.5.6) son equivalentes a una iteración del método de GaussSeidel. 5. Demuestre que en el método del gradiente las aproximaciones se encuentran por minimización unidimensional del funcional q(x ) en la dirección del gradiente: q( x k 1 ) min q( x k r ( k ) ) con r ( k ) q( x ( k ) ) b Ax ( k ) . 6. Sea A una matriz simétrica y definida positiva. Demuestre que la única solución del sistema Ax b es el único mínimo de la función (4.5.4). 7. Supongamos que todos los elementos de la diagonal principal de A son iguales a uno. Demuestre que si k 1 entonces el método del gradiente (4.5.12) es el método de Jacobi. 264 4.6. Algoritmos LR y QR En sección 2.5, describimos un método iterativo (el método de las potencias) que permite encontrar el eigenvalor de módulo máximo (eigenvalor dominante) y el eigenvector correspondiente. En esta sección nos ocuparemos de dos métodos iterativos, conocidos como algoritmos LR y QR . El primero, desarrollado por Rutishauser (1958) conduce una matriz arbitraria no singular a una matriz triangular con la ayuda de transformaciones no unitarias. La creación de este método es la contribución más significativa a la solución del problema de valores propios, hecha después de la aparición de los ordenadores automáticos. El algoritmo QR desarrollado por Kublanovskaya (1961) and Francis (1961/1962) está estrechamente asociado con el algoritmo LR , sino que se basa en el uso de transformaciones unitarias (Householder, 1964; Stewart, 2001). En muchos sentidos, es el más eficaz de los métodos conocidos para la resolución del problema algebraico general de valores propios. Algoritmo LR. El algoritmo de Rutishauser se basa en la factorización LU de una matriz no singular A : A LR (4.6.1) donde L es la matriz unitriangular inferior, y en lugar de U se usa la matriz triangular superior R . Consideramos la matriz semejante L1 AL . Se obtiene L1 AL L1 ( LR) L RL (4.6.2) Por lo tanto, si factorizamos A en el producto de dos matrices triangulares, y luego multiplicamos los factores en el orden inverso, obtenemos una matriz similar a la matriz original 265 A . En el algoritmo LR , este proceso se repite infinitamente. Al denotar A1 A , dicho algoritmo se define por las ecuaciones Ak 1 Lk 1Rk 1 , Rk 1Lk 1 Ak (4.6.3) Obviamente, Ak es semejante a Ak 1 y, por la inducción es semejante a la matriz A1 A , es decir, las matrices Ak y A1 A tienen los mismos eigenvalores. Derivamos algunas relaciones entre las iteraciones consecutivas. Se deduce de (4.6.3) que Ak Lk11 Ak 1Lk 1 (4.6.4) y la aplicación repetitiva de esta fórmula nos da Ak Lk11Lk12 L21L11 A1 L1L2 Lk 1 (4.6.5) o L1L2 La matriz Tk L1L2 Lk 1 Ak A1L1L2 Lk 1 (4.6.6) Lk es unitriangular inferior, mientras que la matriz U k Rk Rk 1 R1 es triangular superior. Usando (4.6.5) obtenemos TkU k L1L2 Lk 1 ( Lk Rk ) Rk 1 A1L1L2 R2 R1 L1L2 Lk 1Rk 1 Lk 1 Ak Rk 1 R2 R1 AT 1 k 1U k 1 R2 R1 (4.6.7) Re-uso de este resultado conduce a TkU k A1k (4.6.8) es decir, TkU k es la factorización de la matriz A1k Ak en el producto de dos matrices triangulares. 266 Teorema 4.6.1 (Rutishauser). Bajo ciertas condiciones, 1 0 2 Lk E y Rk Ak 0 0 0 0 X 0 n cuando k (4.6.9) La demostración se puede encontrar en Wilkinson (1965). Así, el teorema garantiza la convergencia del proceso iterativo a una matriz triangular superior cuyos elementos diagonales son eigenvalores de la matriz A . Ahora podemos tratar de evaluar el valor del algoritmo LR como un método práctico. A primera vista, no es muy prometedor por las siguientes razones: 1) Hay matrices que no tienen la factorización triangular a pesar de que el problema de eigenvalores para dichas matrices está bien condicionado. Para tales matrices, el algoritmo LR no puede aplicarse sin algunas modificaciones. Además, hay una clase mucho más amplia de matrices, para las cuales la descomposición LR es numéricamente inestable. La inestabilidad numérica puede surgir en cada etapa del proceso iterativo y dar lugar a una pérdida significativa de precisión de los eigenvalores calculados. 2) 2 3 La cantidad de cálculos es muy grande. Cada iteración requiere n 3 de multiplicaciones. 3) La convergencia de los elementos subdiagonales a cero depende de la relación i 1 / i y puede ser muy lenta si los eigenvalores no están bien separados. La estabilidad numérica de la factorización LR se puede mejorar mediante la introducción, en su caso, las permutaciones. 267 Algoritmo QR. En este algoritmo se usa la descomposición de una matriz A A1 en el producto de una matriz unitaria Q y una matriz triangular superior R (Kublanovskaya,1961; Francis, 1961/1962; Kuttler, 2012). El algoritmo se define por las ecuaciones siguientes: Ak Qk Rk , Rk Qk* Ak , y Ak 1 Rk Qk Qk* Ak Qk (4.6.10) es decir, Ak 1 Qk* Ak Qk (4.6.11) y, por lo tanto, en cada etapa las matrices Ak 1 y Ak son unitariamente semejantes. Si la matriz Ak es no singular, entonces esta factorización es esencialmente única, y sin duda es única, si tomamos los elementos diagonales de Rk reales y positivos. Si Ak es una matriz real, entonces Qk y Rk son reales. Esta factorización QR tiene la ventaja de que la reducción al cero de un menor líder de la matriz Ak no causa violación del algoritmo, como lo fue en el algoritmo LR . Las iteraciones sucesivas del algoritmo QR satisfacen las relaciones similares a las relaciones derivadas para el algoritmo LR . Tenemos Ak 1 Qk* Ak Qk Qk*Qk*1 Ak 1Qk 1Qk Qk* Q2*Q1* A1Q1Q2 Qk (4.6.12) lo que implica Q1Q2 Qk Ak 1 AQ 1 1Q2 Qk (4.6.13) y, por lo tanto, todos Ak son unitariamente semejantes a A1 A . Introduciendo Pk Q1Q2 Qk y 268 U k Rk Rk 1 R1 (4.6.14) y usando (4.6.13) se obtiene PU k k Q1 Qk 1 (Qk Rk ) Rk 1 AQ 1 1 Qk 1Rk 1 R1 Q1 Qk 1 Ak Rk 1 R1 (4.6.15) R1 A1Pk 1U k 1 Por lo tanto, PkU k A1k (4.6.16) La fórmula (4.6.16) representa una factorización de la matriz PkU k Ak . La factorización es única si los elementos diagonales de la matriz triangular superior son positivos, y así será para U k si esto es cierto para todas las matrices Rk . Observación 4.6.1. En realidad, en lugar de la matriz original A es mejor aplicar el algoritmo QR a una matriz que es unitariamente semejante a la matriz dada A y que está en la forma Hessenberg superior. La matriz de Hessenberg es una matriz "casi" triangular. Para ser más exactos, una matriz superior de Hessenberg H {hij } tiene todos ceros por debajo de la primera subdiagonal: hij 0 si i j 2 . La razón por la que debe usar una matriz que es superior de Hessenberg y unitariamente semejante a la matriz original A en el algoritmo QR es que el algoritmo mantiene la forma superior de Hessenberg. Estos resultados se contienen en los siguientes dos lemas demostrados en Wilkinson (1965). Y ustmos buscando matrices en bloques triangulares superiores, esto forzará el tamaño de los bloques de ser no mayor de 2 2 que son fáciles de manejar usando la fórmula cuadrática. ■ Lema 4.6.1. Cada matriz cuadrada A de orden n es unitariamente semejante a la matriz de Hessenberg superior. 269 Lema 4.6.2. Sean Ak la secuencia de iteraciones del algoritmo QR y la matriz original A A1 es no singular. Entonces Ak 1 es superior de Hessenberg si Ak es superior de Hessenberg. Matrices simétricas. Ambos algoritmos LR y QR se puede aplicar a las matrices simétricas. Obviamente, el algoritmo QR conserva la simetría de las matrices, ya que A2 Q1* A1Q1 A2* si A1 A1* (4.6.17) Sin embargo, generalmente esto no es cierto para el algoritmo LR . No es bueno, ya que la simetría considerablemente ahorra los cálculos. En el caso cuando la matriz A1 A es simétrica y definida positiva, se puede modificar el algoritmo LR usando la factorización de Cholesky (véase la sección 3.1). Se obtiene A1 L1 LT1 , LT1 L1 A2 L11 A1 L1 LT1 A1 ( L11 )T (4.6.18) Obviamente, la matriz A2 LT1 L1 es simétrica y definida positiva, como es semejante a A1 A . Por lo tanto, se puede continuar el proceso y demostrar que Ak Lk11 L11 A1 L1 Lk 1 LTk 1 LT1 A1 ( L11 )T ( Lk11 )T (4.6.19) y L1 L2 Lk LTk LT1 A1k (4.6.20) o ( L1 L2 Lk )( L1 L2 Lk )T A1k (4.6.21) Notemos que en este caso, la cantidad de cálculos se reduce a la mitad, y además, la factorización de Cholesky garantiza la estabilidad alta de los cálculos y no requiere permutaciones. También 270 hay que señalar que la cantidad de cálculos es demasiado grande para las matrices simétricas arbitrarias, pero este volumen es considerablemente menor para una matriz de banda simétrica cuando aij 0 si i j m (4.6.22) Ejercicios: 1. Dé un ejemplo de una matriz, para la cual el algoritmo QR diverge. 2. Demuestre que si L 2 M 2 donde E L 2 es la norma espectral, entonces 0 E E2 M 0 E 2 3. Sea A una matriz no singular que permite la factorización LR donde L es unitriangular inferior ( lii 1 ). Demuestre que L y R se definen de manera única. 4. Sea A una matriz tridiagonal no singular que permite la factorización LR donde L es unitriangular inferior ( lii 1 ). Demuestre que 0 0 1 1 . y R L 0 0 1 2 5. Calcule un paso del algoritmo QR con la matriz A . 1 6. Sea A {aij } una matriz hermitiana. Demuestre que para cada elemento diagonal aii existe un eigenvalor ( A) de la matriz A tal que ( A) aii 271 a j i ij 2 . 7. Demuestre que la ecuación x4 4x3 8x2 8x 4 0 es la ecuación característica de la matriz superior de Hessenberg 4 8 8 4 1 0 0 0 A 0 1 0 0 0 0 1 0 Aplique el algoritmo QR para encontrar los eigenvalores de A . 272 4.7. Problemas al capítulo 4 1. Sea A una matriz simétrica. Consideremos un proceso iterativo no estacionario de la forma x k 1 x k k ( Ax ( k ) b ) , donde k 0 depende del número de la iteración. Entonces e k qk ( A)e 0 donde k qk ( A) ( E i A) es un polinomio. Encuentre las raíces del polinomio algebraico i 1 qk (t ) . Minimice el error del proceso iterativo eligiendo qk (t ) en la forma de los polinomios de Chébyshev (véase la sección 5.6). 2. Demuestre que qk ( A) 2 max qk (t ) , donde qk (t ) es el polinomio del problema 1, y t el máximo se busca sobre todos los t del intervalo espectral de la matriz simétrica A: 1 t n (Ciarlet, 1995). 3. Sea A una matriz antihermitiana de orden 2: A A . Demuestre que los dos eigenvalores de la matriz asociada con el método de Jacobi J E D1 A son puros imaginarios, or reales. 4. Demuestre que los métodos de Jacobi, de Gauss-Seidel y de SOR convergen para la matriz 273 3 1 0 0 0 1 1 3 1 0 1 0 0 1 3 1 0 0 A . 0 0 1 3 1 0 0 1 0 1 3 1 1 0 0 0 1 3 5. Construya un contraejemplo para demostrar que en general el método de Jacobi no converge para las matrices definidas positivas. 6. Considere la matriz 1 A 1 . 1 Demuestre que si 1 2 2 , entonces el método de Jacobi diverge para la matriz A, mientras que el método de Gauss-Seidel converge. 7. Sean A y M dos matrices simétricas y definidas positivas. Demuestre que todos los eigenvalores del matriz AM 1 tambien son positivos. 8. (Allaire y Kaber, 2008). Demuestre que si la matriz A es tridiagonal, hermitiana y definida positiva, entonces los procesos de Jacobi y Gauss-Seidel convergen a la solución exacta del sistema Ax b . 9. Sea A M N es una matriz hermitiana y definida positiva. Demuestre que la matriz M * N es hermitiana [Indirecta: M * N A* ( N * N ) ]. 274 10. (Allaire y Kaber, 2008). Sea A M N es una matriz hermitiana y definida positiva. Demuestre que si la matriz hermitiana M * N es definida positiva, entonces ( M 1 N ) 1 [Indirecta: Define la norma vectorial x M 1 N 1 en la norma matricial subordinada a 11. Sea A L D U , donde U A A Ax , x y demuestre que ]. 1 y es un parámetro pequeño (Golub y Ortega, 1992). Encuentre la frontera superior del radio espectral de la matriz (L D) 1U de las iteraciones de Gauss-Seidel. 12. Presentando la matriz A como A P N donde P es una matriz no singular, es posible considerar el proceso iterativo Pxk 1 Nxk b para hallar la solución del problema Ax b . Demuestre que es válida la siguiente afirmación (Iserles, 1998): Si las matrices A y P P T A son simétricas y definidas positivas, entonces dicho proceso iterativo converge. 13. Sea A L D LT una matriz simétrica y definida positiva, donde D es la matriz diagonal de los elementos diagonales de A , y L es la matriz estrictamente triangular que coincide con la parte correspondiente de la matriz A. Supongamos que es un eigenvalor y x es el eigenvector correspondiente del problema espectral Gx x para la matriz iterativa G M S1 N S ( D L) 1 LT del método de Gauss-Seidel, además, el eigenvector está normalizado por x * LT x * . 1 x Lx 275 x * Dx 1 . Demuestre que 14. Demuestre que la matriz de iteración en el método de Gauss-Seidel tiene eigenvalor nulo. 15. Consideremos la matriz 3 2 1 A 1 3 2 . 2 2 3 Demuestre que tanto el método de Jacobi como el de Gauss-Seidel convergen para la matriz A [Indirecta: el espectro de la matriz de iteración BJ es el mismo: 0, i y el espectro de la matriz BGS es 0, 1 54 (31 1393 , es decir su radio espectral es mayor que uno]. 16. Sea A una matriz simétrica n n . Supongamos que los vectores x, Ax, A2 x,, An1 x linealmente independiente, y los vectores p1 , p2 ,, pn1 se obtienen de ellos por medio de la ortogonalización de Gram-Schmidt. Demuestre que los vectores pi se determinan por las fórmulas pi1 Api i pi i pi1 , i 1,2,..., n 2 ; p0 x , p1 Ap0 0 p0 , donde Api , pi i pi , pi , i 0,2,..., n 2 ; y Api , pi 1 pi , Api 1 pi , pi i , pi 1 , pi1 pi 1 , pi 1 pi 1 , pi1 276 i 1,2,..., n 2 . 17. Sea A una matriz hermitiana del sistema (4.5.3), y sea 0 min max su intervalo espectral. Encuentre la condición para ( A) max / min (el número de condición de A ) que garantiza la convergencia y estabilidad del método x k 1 x k k ( Ax ( k ) b ) para la elección arbitraria del parámetro j 1 / j , min j max , j=1,2,3,…, n, n es arbitrario. 18. Sea A una matriz simétrica y definida positiva, y sea B una matriz diagonal y definida positiva. Analice la convergencia del proceso iterativo x k 1 x k B 1 ( Ax ( k ) b) . [Indirecta: el método iterativo es equivalente al método de Jacobi con la matriz E B1 A ]. 19. Demuestre que el método del gradiente (4.5.12) converge para cualquier matriz definida positiva A si los parametros k son bastante pequeños. 20. Compare la forma del método de relajación ( k 1) wxx w(yyk 1) aw ( k ){ w( k 1) (1 ) w( k ) } para la ecuación u xx u yy au `2 con la obtenida por la aplicación del método de Newton. 21. Demuestre que el método de Jacobi diverge para la matriz 277 2 0 1 1 0 2 1 1 A 1 1 2 0 1 1 0 2 22. Encuentre dos matrices A y B para las cuales ( A B) ( A) ( B) . Dicha desigualdad significa que ( A) no puede ser una norma matricial. 23. Demuestre que el proceso iterativo x ( k 1) Bx ( k ) d con la matriz 12 B 10 10 0 1 9 k converge, es decir, lim k B 0 . 24. Demuestre que una matriz B tiene el radio espectral ( B) 1 si y sólo si lim k B k 0 (es decir, si y sólo si las iteraciones x ( k 1) Bx ( k ) d convergen). 25. Demuestre que la matriz de iteración del método de Gauss-Seidel tiene eigenvalor cero. 26. Construye un contraejemplo para demostrar que en general el método de Jacobi no converge para matrices definidas positivas. 27. Sea A una matriz semejante a B. Demuestre que a) det A det B ; b) i ( A) i ( B) ; c) A es no singular si y sólo si B es no singular; 278 d) A n es semejante a B n ; e) si A es no singular entonces A1 es semejante a B 1 . 28. Sea A una matriz hermitiana con los elementos diagonales positivos. Demuestre que el método de Gauss-Seidel para dicha matriz converge si y sólo si A es definida positiva. 29. Demuestre que si ( B) 1 entonces existe x (0) y d tales que las iteraciones x ( k 1) Bx ( k ) d divergen). 30. Sea A una matriz hermitiana. Demuestre que el método de Jacobi converge si las matrices A y 2D A son definidas positivas. 279 Capítulo 5. Eficiencia de los cálculos Una característica importante de un método numérico es su eficiencia. Es la capacidad de lograr la solución de un problema, con la menor cantidad de recursos posibles. Entonces, la eficiencia nos obliga a identificar el trabajo y los desperdicios, a fin de disminuir o eliminar los desperdicios que tienen implícitos costos. En otras palabras, entre dos métodos que producen el mismo resultado, es preferible el más económico, es decir, el que requiere menos operaciones aritméticas para su realización, que permite alcanzar los objetivos dentro del marco de tiempo establecido de antemano. En este capítulo consideremos algunos momentos que determinan la calidad de un algoritmo numérico y su eficiencia. 5.1. Importancia de la estabilidad de los cálculos Una vez que un algoritmo numérico se formula adecuadamente, deseamos conocer las condiciones exactas en las que el algoritmo da la solución del problema en cuestión. El practicante de la técnica de cálculo es frecuentemente inclinado a juzgar el desempeño de un algoritmo de una manera puramente pragmática: El algoritmo ha sido probado en un cierto número de ejemplos, y ha funcionado de manera satisfactoria en el 95 por ciento de todos los casos. Pero los matemáticos pueden hacer preguntas sobre el rendimiento del algoritmo. Uno podría querer saber, por ejemplo, la rapidez de ejecución del algoritmo. O uno puede desear saber algo sobre 280 el tamaño del error, si el algoritmo se implementa con pequeños errores (errores iniciales, errores de contorno, errores en el forzamiento del problema, errores de redondeo, etc.). Esta última pregunta está relacionada con la estabilidad numérica del algoritmo. Ordenadores digitales electrónicos modernos trabajan con un número limitado de posiciones decimales. Y el número de operaciones aritméticas que puede ser realizado por unidad de tiempo (por ejemplo, por un segundo), sin embargo, es de millones de veces más grande. Aunque los errores de redondeo individuales son aún pequeños, su efecto acumulativo puede, en vista de la gran cantidad de operaciones aritméticas realizadas, crecer muy rápidamente e invalidar completamente el resultado final. Con el fin de ser sonido, un algoritmo debe permanecer inmune a la acumulación de errores de redondeo. Esta inmunidad se denomina estabilidad numérica. Es preciso notar que la solución numérica obtenida mediante un algoritmo inestable siempre es inútil, ya que la contribución de los errores en el valor de la solución numérica puede ser tan grande que dicha solución será muy distinta de la solución exacta desconocida. Por ello, es muy importante usar sólo los algoritmos estables. Con los Ejemplos 1.1.2 y Ejemplo 3.7.2 ya mostramos que una fórmula puede ser perfecta para los cálculos exactas, pero es inestable y, por lo tanto, completamente inútil si los cálculos se implementan con errores de redondeo (usando una computadora). O, por ejemplo, el método de bisección es insensible a errores en el cálculo de los valores f ( xi ) si el signo de f ( xi ) se determina correctamente. Sin embargo, ya el primer error en el signo f ( xi ) es fatal, porque conduce a la elección errónea del siguiente intervalo. Diferentes tipos de estabilidad. Sea B {x R n : x } una bola con el radio y el centro x 0 . Consideremos una ecuación discreta 281 xn1 f (n, xn ), xn 0 x0 Definición 5.1.1. La solución x 0 de la ecuación ya mencionada se llama a) estable si para un 0 dado, existe ( , n0) 0 tal que para cualquier x0 B la solución xn B ; b) asintóticamente estable si la solución es estable y atractiva, es decir, si existe (n0) 0 tal que lim xn 0 cuando n para x0 B ; c) global asintóticamente estable si la solución es asintóticamente estable para cualquier punto inicial x0 ; d) exponencialmente estable si existe 0 , a 0 y 0 1 tal que xn a x0 n n 0 cuando x0 B . Consideraremos ahora más ejemplos. Ejemplo 5.1.1. Sea yn 1 ayn , Por lo tanto, y0 b yn 1 a yn , y los errores yn se propagan según la ecuación yn 1 a yn es decir, la solución yn es estable si a 1 , es asintóticamente estable si a 1 , y es inestable si a 1. ■ Ejemplo 5.1.2. Sea yn1 3yn 2 yn1 282 (5.1.1) una fórmula recurrente. Notemos que si y0 y1 1 entonces, según (5.1.1), yn 1 para cada n 1 . Aceptamos dichos valores como la solución exacta. Ahora introducimos errores y 0 , 1 , y y1, 1 2 (5.1.2) en dos valores iniciales, y repetimos cálculos usando la fórmula (5.1.1). La solución perturbada que obtenemos tiene la forma y n , 1 2 n . (5.1.3) En efecto, cálculos directos nos dan y 2 , 3 y 1, 2 y 0, 3(1 2 ) 2(1 ) 1 2 2 , y 3, 3 y 2 , 2 y 1, 3(1 2 2 ) 2(1 2 ) 1 2 3 , Fig.5.1.1. Comportamiento de las dos soluciones: la exacta y la perturbada. 283 etcétera. Supongamos que 10 3 , lo que significa que los errores iniciales (5.1.2) son bastante pequeños. Sin embargo, según (5.1.3), el error aumenta muy rápido y después de diez pasos supera el valor de la solución exacta: y 10, 1 2 10 10 3 1 1.024 yn 1 (Fig.5.1.1). Claro que la solución de la ecuación (5.1.1) es exponencialmente inestable, y es totalmente inútil usar dicha ecuación para n 8 si los datos iniciales (5.1.2) contienen errores más grandes que 10 3 . ■ Ejemplo 5.1.3. Desarrollamos ahora un método numérico para calcular la integral 1 I n x ne x 1dx , n 1, 2,3,... 0 Aplicando la integración por partes obtenemos 1 1 I1 xe x 1dx xe x 1 e x 1dx 1 0 0 1 0 I 2 x e dx x e 2 x 1 1 2 x 1 0 1 e 1 2 xe x 1dx 1 2I1 0 0 ………………………. 1 I n x e dx x e n x 1 n x 1 1 0 1 n x n1e x 1dx 1 nI n1 0 0 Usando las fórmulas de recurrencia, calculamos I1 0.367879, I 2 0.263242, I3 0.207274 I 4 0.170904, I5 0.145480, I 6 0.127120 I 7 0.110160, I8 0.118720, I9 0.0684800 284 (5.1.4) Sin embargo, el valor de la integral I 9 no puede ser negativo, porque la función x9e x1 es no negativa en todo el intervalo 0,1 . Investigamos la fuente del error. Se puede ver que el error de redondeo en I1 es aproximadamente solamente 4.4 107 . Sin embargo en cada etapa de cálculos este error se multiplica por los números 2, 3, ..., 9 , cuyos módulos son más grandes que uno, lo que da, como resultado, el factor 9! y finalmente nos lleva a un absurdo. ■ Ejercicios: 1. Sea u n1 u n evolucionario A u n1 (1 )u n 2 0 una familia de los esquemas ( 0 1 ) para el problema du Au dt con una matriz antisimétrica A. Demuestre que la norma de la solución u 2 u, u 1/2 se conserva sólo para el esquema de Crank-Nicolson ( ). 1 2 2. En un dominio espacial periódico aproximamos la ecuación de Burgers 0 t x por una ecuación semi-discreta j j 1 j j 1 0. t 2 x Demuestre que la norma 1/ 2 2 2 dD D de la solución exacta se conserva con tiempo, mientras que la norma 1/ 2 2j j de la solución aproximada crece sin límites (la ecuación semi-discreta es inestable). 3. Consideremos la forma canónica de los esquemas homogéneos de un solo paso (Samarskii, 1971): 285 B y n 1 y n Ay n 0 donde A y B son dos matrices, además B es definida positiva y A es simétrica y definida positiva. Demuestre que si B 0.5 A entonces el esquema es estable en la norma y A Ay, y : yn y0 . A A 4. Demuestre que si adicionalmente a las condiciones del ejercicio 3, la matriz B también es simétrica, entonces el esquema B es estable también en la norma y B 5. Sea y n1 y n y n 1 y n By, y : Ay n 0 yn B y0 . B A y n1 (1 ) y n 0 un esquema donde 0 es el peso, A A * , y A 0 . Demuestre que si 0.5 , entonces el esquema es estable: y n y 0 . 2 6. Sea Ay d Ay, y . Demuestre que si estable : y n y 0 . 286 1 1 , entonces el esquema del ejercicio 5 es 2 d 5.2. Estabilidad de la solución de un problema La importancia de la estabilidad de un algoritmo numérico también se determina por el teorema de equivalencia de Lax (Marchuk, 1982; Golub y Ortega, 1992). Supongamos que hay que un problema continuo lineal se aproxima por un problema discreto. Entonces, según el teorema de Lax, la solución del problema discreto converge a la solución del problema continuo solo si el algoritmo numérico, que se usa para hallar la solución del problema discreto, es estable. En el caso de un problema no lineal, la aproximación y estabilidad también son necesarias, pero no siempre son suficientes para la convergencia. Para un estudio más detallado se recomiendan los trabajos de Forsythe y Wasow (1960), Godunov y Ryabeñkii (1964), Richtmyer y Morton (1967), Yanenko (1971), Marchuk (1982), Golub y Ortega (1992), Skiba (1993, 2001, 2005, 2015), Durran (1999). Ejemplo 5.2.1. Hallamos la solución ( x, t ) del problema de Cauchy para la ecuación de transporte u 0 t x (5.2.1) L ( x,0) g ( x) (5.2.2) A en la banda x , 0 t T , donde u = Const, y g(x) es dos veces continuamente diferenciable en todo el eje x, además, 2 sup g ( x) G 2 x x La solución exacta del problema (5.2.1), (5.2.2) es 287 (5.2.3) ( x, t ) g ( x ut) y, por lo tanto, ( x, t ) Const a lo largo de cada línea característica x ut Const . Además, debido a (5.2.3), la solución es acotada. Aproximación. Introducimos las mallas regulares en el espacio y tiempo con tamaños h y τ, respectivamente: xi ih ; t n n ; n 0,1,2,..., N +1; T ( N 1) . Denotemos como in ( xi , t n ) el valor de la solución numérica en el nodo xi , tn de la malla obtenida con el esquema de Godunov (Godunov y Ryabeñkii, 1964): A h , n i in1 in n in1 u i 0 h ( Lh )i i0 g i (5.2.4) (5.2.5) Entonces, la condición inicial (5.2.2) se aproxima exactamente. Sin embargo, expandiendo in 1 y in1 en las series de Taylor en vecindad del punto xi , t n , obtenemos que el esquema (5.2.4) tiene el primer grado de aproximación respecto a h y : Ah, ( ) h, Ah, h, Ah, ( ) h, M 1 (h ) (5.2.6) donde f max sup f i n , y la solución exacta ( ) h , es la función de malla definida en los nodos n i xi , t n . Estabilidad. Examinemos ahora la estabilidad del esquema de Godunov. Suponiendo que un error in en la parte derecha de (5.2.4) causa cierto error in en la solución numérica in , llegamos a la ecuación para los errores: 288 in1 1 u n u n 0 n i i 1 i , i 0 . h h (5.2.7) o in1 1 Si u h u h in 1 (la condición de Courant), entonces 1 u h u h in1 in . u h 1 y sup in1 sup in i (5.2.8) (5.2.9) i donde sup in . Se deduce de (5.2.9) que la estabilidad el esquema de Godunov es condicional, i es decir, solo si u h 1: ( N 1) T (5.2.10) Convergencia. Entonces, según el teorema de Lax, ( ) h, T M 1 (h ) . (5.2.11) es decir, la solución numérica converge hacia la solución exacta del problema de Cauchy con el orden O( h) respecto de h y . Es conveniente dar una interpretación geométrica de la relación entre la condición de Courant y la convergencia del esquema explícito de Godunov. Supongamos que u 1 y T 1 , entonces la solución exacta ( x, t ) g ( x t ) es invariable a lo largo de la característica x t Const y, en 289 particular, (0,1) (1,0) g (1) . En este caso, la condición de Courant es r h 1 , y el esquema (5.2.4), (5.2.5) se convierte en in1 1 r in r in1 , i0 g i . (5.2.12) Ya que ( N 1) 1 , entonces 0N 1 aproxima el valor exacto (0,1) en el punto C (Fig.5.2.1). Fig. 5.2.1. Dominios de influencia para 0N 1 dependiente de la condición de Courant. La situación más favorable es cuando r 1 , ya que en este caso, el esquema (5.2.12) aproxima el problema diferencial exactamente y, según el método de las características, 0N 1 depende sólo del valor g (1) en el punto x 1 : 0N 1 g (1) (el punto B en Fig. 5.2.1). Si r 1 , entonces, de 1 acuerdo con (5.2.12), el dominio de influencia para el valor 0N 1 es todo el segmento AO ( ,0) r 290 del eje x que incluye el punto x 1 (Fig. 5.2.1). Al contrario, cuando r 1 , el dominio de la 1 influencia para el valor 0N 1 es el segmento DO ( ,0) que no incluye el punto x 1 . r Supongamos ahora que la función inicial g(x) se cambia un poco y suavemente en una vecindad pequeña U del punto x 1 , situada fuera del segmento DO, entonces, la solución exacta (0,1) g (1) también se modifica. Por otra parte, la solución numérica 0N 1 refleja dicho cambio en g(x) en la vecindad U si r 1 (ya que el punto x 1 pertenece al dominio de influencia AO), y no lo siente si r 1 (ya que el punto x 1 no pertenece al dominio de influencia BO). La misma situación se representa cuando h y tienden al cero conservando el valor r h . Por eso, en el caso cuando r 1 , no hay ni estabilidad, ni convergencia. A continuación se comparan los resultados de los dos ejemplos (Ejemplos 5.2.2 y 5.2.3) para demostrar que la estabilidad de la solución de un problema continua puede empeorarse en el proceso de su discretización. Ejemplo 5.2.2 (problema continuo). Sea d y ( x ) y ( x ) g ( x ) , dx y ( 0) a (5.2.13) el problema original con la solución y ( x ) , y d y ( x ) y ( x ) g ( x ) , y ( 0) a dx (5.2.14) un problema perturbado por un error >0 introducido en el punto x=0, que tiene la solución y ( x) . Evidentemente, el problema para errores z ( x) y ( x) y( x) tiene la forma 291 d z ( x ) z ( x ) , z ( 0) . dx (5.2.15) La solución del problema (5.2.15) es z ( x ) expx . (5.2.16) z ( x ) expRe x . (5.2.17) y, por lo tanto, Es evidente que el comportamiento del error depende del parámetro : 1) Si Re 0 , entonces la solución y ( x ) es estable asintóticamente, ya que z ( x ) 0 cuando x , es decir, el error introducido en el punto x=0 tiende al cero cuando x aumenta. 2) Si Re 0 , entonces la solución y ( x ) es inestable, ya que z ( x ) cuando x , y por lo tanto, el error aumenta sin límites junto con x. 3) Si Re 0 , entonces la solución y ( x ) es estable, ya que z ( x ) para cada x. Así, la solución y ( x ) del problema (5.2.13) es estable respecto al error si Re 0 . ■ Ahora vamos a ver cómo se cambian las condiciones de estabilidad de la solución al discretizar el problema (5.2.13). Ejemplo 5.2.3 (problema discreto). Aproximemos tanto el problema continuo original (5.2.13) como el perturbado (5.2.14) por medio del esquema de Euler: yn1 yn h( yn gn ) , y0 a , y n 1, y n, h( y n, g n ), 292 y 0, a . (5.2.18) (5.2.19) Entonces el problema discreto para errores z n , y n , y n tiene la forma z n 1, 1 h z n, , z 0, , (5.2.20) o, de otra manera, en los cálculos, el error inicial se propaga como z n, 1 h z 0, 1 h , n n n0 . (5.2.21) Por lo tanto, z n , 1 h n z 0, (1 hRe ) 2 h 2 (Im ) 2 n/2 , n0 (5.2.22) es decir, la solución y n del problema discreto es estable respecto al error sólo si (1 h Re ) 2 h 2 (Im ) 2 1. (5.2.23) Es importante notar que, a diferencia del problema continuo (5.2.13), la solución numérica y n es inestable no sólo cuando Re 0 , sino también cuando Re 0 . Además, si Re 0 , en virtud de (5.2.23), la solución y n es estable sólo para h bastante pequeño: h 2 Re 2 . (5.2.24) En particular, si Re 0 , entonces se deduce de (5.2.24) que h 2 / , y por consiguiente, h disminuye cuando crece. Así, el esquema de Euler es condicionalmente estable (es decir, es estable sólo bajo cierta condición). ■ 293 Ejercicios: 1. Considere la solución de la ecuación n An 0 du Au dt donde 1 A . Demuestre que 0 nn1 ( n 1,2,... ). n 2. Analice la estabilidad del esquema u n1 u n1 u n1 u n (1 ) Au n 0 2 cuando 0 y 1. 3. Demuestre la inestabilidad del esquema u n1 u n1 u n1 u n (1 ) Au n 0 2 cuando 4 . 4. Demuestre la estabilidad del esquema un1 2un un1 n1 u (1 xn2 )un 1 xn , n 1,2,..., N 1, 2 h u0 2 , u N 1 , 0 xn nh 1 , Nh 1 . 5. Considere el esquema de Lax-Wendroff 1 1 nj1 (1 ) nj1 (1 2 ) nj (1 ) nj1 2 2 para la ecuación de transporte u 0 t x donde u h . Demuestre que el factor de amplificación (k ) en el análisis espectral del esquema es (k ) 1 i sen kh 2 2 sen2 12 kh y, por lo tanto, el esquema es estable si se cumple la condición de Courant: 1 [Indirecta: use la fórmula (k ) 1 4 2 (1 2 ) sen4 12 kh ]. 2 294 5.3. Piense bien! Una característica importante de un método numérico es su eficiencia. Es la capacidad de lograr la solución de un problema, con la menor cantidad de recursos posibles. Entonces, la eficiencia nos obliga a identificar el trabajo y los desperdicios, a fin de disminuir o eliminar los desperdicios que tienen implícitos costos. En otras palabras, entre dos métodos que producen el mismo resultado, es preferible el más económico, es decir, el que requiere menos operaciones aritméticas para su realización, que permite alcanzar los objetivos dentro del marco de tiempo establecido de antemano. Por ejemplo, es fácil calcular 9882 si usar la fórmula a 2 a 2 b2 b2 (a b)(a b) b2 En efecto, 9882 (988 12)(988 12) 122 1000 976 144 976144 . U otro problema: sin calcular las raíces, determinar que número es más grande, mejor método es el siguiente: 5 5 10 52 25 , 2 10 25 32 . Por lo tanto, 5 5 o 2 ? El 2 5 5. La eficiencia de cálculos está estrechamente ligada a nuestra capacidad de pensar de manera no convencional. Vamos a ilustrar esto con algunos ejemplos. Ejemplo 5.2.1. (Esquema de Horner). El método de Horner para la evaluación de polinomios es ampliamente conocido debido a su eficiencia, y en términos generales consiste en lo siguiente: Evaluar el polinomio algebraico Pn ( x) an x n an1 x n1 an2 x n2 ... a1 x a0 de tal forma que el número de multiplicaciones efectuadas sea n, donde n es el grado del polinomio. Puede checarse fácilmente que si el polinomio anterior es evaluado en la forma como aparece, el número de multiplicaciones requeridas está dado por 295 n(n 1) k 2 k 1 n n2 2 Para reducir el número de multiplicaciones, lo que Horner propone es factorizar Pn ( x ) tantas veces como sea posible, según el siguiente esquema: Pn ( x) an x an1x an2 x a2 x a1x a0 (5.2.1) De acuerdo con la fórmula (5.2.1), el cálculo del valor de Pn (z ) en un punto x=z se reduce al siguiente algoritmo: cn a n cn1 an1 zcn cn2 an2 zcn1 c1 a1 zc2 c0 a0 zc1 Pn ( z ) (5.2.2) Así, Pn (z ) se calcula por medio de un ciclo: input ( z, a0 , a1 , a2 , , a n ); cn an ; i n, n 1, n 2,...,1 { ci1 ai1 zci }; Pn ( z ) c0 . El método de determinación del valor polinomio con arreglo a las fórmulas (5.2.2) se llama el esquema de Horner. En conclusión debemos decir que a pesar de que el esquema de Horner es muy cómodo, en el caso cuando los coeficientes a i son muy grandes, los cálculos según el esquema (5.2.2) a veces pueden producir pérdidas considerables de la exactitud debido a la sustracción de grandes números redondeados. ■ Ejemplo 5.2.2. Al expandir la función x2 en una serie de Fourier en el intervalo [ , ] obtenemos x2 2 3 (1)n cos nx 2 n 1 n 4 296 Si ponemos en esta expansión x entonces calcularemos la suma de la serie 1 2 n 1.6449 6 n 1 n 1 n n 2 (5.2.3) Es bien conocido que la serie (5.2.3) converge lentamente. Suponemos ahora que su suma exacta 2 / 6 está desconocida y en nuestras manos hay sólo una calculadora de escritorio. Notemos que el método directo de sumar uno tras otro los términos de la serie no es tan efectivo (económico), ya que es necesario sumar unos 10,000 términos para alcanzar la misma exactitud. Esto requiere hacer 30,000 operaciones, es decir, gastar 50 horas de trabajo continuo si hacer 10 operaciones por minuto. Intentamos ahora a resolver este problema de otra manera. Es fácil calcular la suma de los nueve primeros términos de la serie (1,5398), lo que ya nos da una buena aproximación al valor exacto (porque la serie converge). Gastamos sólo 4 minutos para obtener este resultado usando la calculadora de escritorio. Comparamos ahora la suma n 2 de los restos términos de la serie con la n 10 integral x 2 dx . Con este fin, aproximemos la integral por medio de la fórmula de los trapecios: 10 x 2 dx 10 1 2 1 1 (10 112 ) (112 122 ) (122 132 ) 2 2 2 1 1 1 102 102 n 2 102 2 2 2 n 10 (5.2.4) Por lo tanto, n n 10 2 1 x 1 102 0.1050 10 2 (5.2.5) y finalmente, 9 n 1 n 1 n 10 n2 n2 n2 1.5398 0.1050 1.6448 297 (5.2.6) Así, obtenemos rápidamente muy buen resultado. Así, si los cálculos se realizan mediante una calculadora de escritorio, la diferencia entre estos dos métodos es enorme. ■ Ejemplo 5.2.3. Suponemos que los términos a k y bk de dos series an b y n 1 n n 1 asintóticamente tienen un comportamiento similar, es decir, an 1 n b n lim Entonces, n 1 n 1 n 1 an bn (an bn ) (5.2.7) La fórmula (5.2.7) es muy útil para calcular la suma de la serie an si la suma de n 1 que la última serie (an bn ) converge mucho más rápido que la serie original n 1 b n n 1 es dada, ya a n 1 n . Por ejemplo, hay que calcular la suma de la serie a n n 1 n 4 1 n 1 1/ 2 Consideremos como la serie b n 1 n la serie (5.2.3) cuya suma ya está conocida: 2 n 1 n 1 6 bn n2 Luego, usando (5.2.7), se calcula fácilmente la suma de la serie (5.2.8): 298 (5.2.8) a n 1 n 2 6 n4 1 n 1 1/ 2 n2 1.64493 0.30119 1.34374 (5.2.9) En efecto, la suma de los primeros cinco términos de la última serie en (5.2.9) ya es suficiente para obtener el valor exacto hasta cuatro decimales. Notemos que es necesario sumar por lo menos 20,000 términos an (hacer unos 140,000 operaciones) con el fin de alcanzar la misma exactitud. En el caso si los cálculos se realizan mediante una calculadora de escritorio, la diferencia entre estos dos métodos es enorme. ■ Ejemplo 5.2.4. Usando una calculadora de escritorio calcule la suma Sn 1 1 1 1 5 5 9 9 13 1 (4n 3)(4n 1) (5.2.10) para n 1010 . Evidentemente, es un absurdo sumar uno tras otro los 1010 términos de la suma (5.2.10). Presentamos los términos de dicha suma de otra manera: 1 1 1 (1 ) , 1 5 4 5 1 1 1 1 ( ) , 59 4 5 9 1 1 1 1 ( ) , 9 13 4 9 13 ……………….. 1 1 1 1 ( ) (4n 3)(4n 1) 4 4n 3 4n 1 Por lo tanto, 1 1 n Sn (1 ) 4 4n 1 4n 1 299 (5.2.11) y en particular, S1010 1010 .■ 4 1010 1 Ejemplo 5.2.5. Usando una calculadora de escritorio calcule la suma Sn 11! 2 2! 3 3! n n! (5.2.12) para n 100 . De nuevo, es un montón de trabajo si empezamos de sumar todos los términos de la suma (5.2.12) uno tras otro. Por otra parte notemos que Sn 11! 2 2! 3 3! n n! (2 1) 1! (3 1) 2! (4 1) 3! (2!1!) (3! 2!) (4! 3!) [(n 1) 1] n! [(n 1)! n!] (n 1)!1 Por lo tanto, el resultado final S100 (101)! 1 es fácil calcular usando la calculadora de escritorio. ■ Ejemplo 5.2.6. Calcule la suma Sn 1 1 1 1 2 2 3 3 4 1 n 1 n para n 10000 . Hay que pensar en un método eficiente de sumar. Notemos que 1 n n 1 n n 1 n 1 n ( n n 1)( n n 1) y, por lo tanto, Sn 1 1 1 1 2 2 3 3 4 ( 2 1) ( 3 2) ( 4 3) 1 n 1 n ( n n 1) n 1 . Así, el resultado final se obtiene sin ninguna calculadora: S10000 100 1 99 . ■ 300 (5.2.13) Ejemplo 5.2.7. Es otro ejemplo cuando un pensamiento bueno permite obtener resultado sin usar una calculadora o un ordenador. Hay que calcular la suma a2006 a2006 si a2 a 1 0 . Como a 0 , entonces se puede dividir la ecuación a2 a 1 0 entre a . Se obtiene a a1 1 . Notemos que a3 1 (a 1)(a 2 a 1) 0 , es decir, a3 1 . Por lo tanto, a 2006 a 2006 (a3 )668 a 2 (a3 )668 a 2 a 2 a 2 a 1 (a3 a 1 ) a 1 (1 a 1 ) a 1 (a) 1 . ■ Ejemplo 5.2.8. Determine la parte entera S de la suma S 1 1 1 22 32 1 20092 (5.2.14) Tenemos 1 S 1 1 1 22 32 1 1 1 1 2 2009 1 2 2 3 1 1 1 1 (1 ) ( ) 2 2 3 ( 1 2008 2009 1 1 2008 ) 1 2008 2009 2009 Por lo tanto, S 1 . Ejercicios: N 1 1 . 1 N 1 n 1 n(n 1) 1. Demuestre que S N N 2. Demuestre que S N a n n 0 a N 1 1 [Indirecta: Usar la formula S N a N 1 1 aS N ]. a 1 N 3. Demuestre que S N n2n ( N 1)2 N 1 2 [Indirecta: Usar la formula n 0 S N ( N 1)2 N 1 2S N 2(2 N 1 1) ]. 301 4. Calcule las sumas de las series siguientes: (1) n 1 1 1 , , S1 S S 2 3 2 2 2 n n 1 n 1 (2n 1) n 1 (2 n) 2 n 1 6 [Indirecta: Ya sabemos que S n 2 S3 . Demuestre que 1 1 S ; S S1 2S3 ; S1 S ; 2S2 S S1 ]. 4 2 302 5.4. Importancia de los métodos geométricos Es innegable que el pensamiento geométrico, desarrollado por la geometría, tiene un claro paralelismo en otras áreas temáticas y la investigación puede servir como una analogía con éxito en la obtención de resultados útiles, conclusiones, principios y consideraciones de los diversos campos del conocimiento. La propia geometría como ciencia tiene una historia de mil años. Como una dirección científica, implica el estudio de las conexiones lógicas entre conceptos, donde el papel central se da al uso de la intuición visual, es decir, la geometría se basa en las representaciones espaciales. En matemáticas, una demostración o bien una prueba es un argumento deductivo para asegurar la verdad de una proposición matemática. En la argumentación se pueden usar otras afirmaciones previamente establecidas, tales como teoremas o bien las afirmaciones iniciales o axiomas. En principio una demostración se puede rastrear hasta afirmaciones generalmente aceptadas, conocidas como axiomas. Las representaciones geométricas-visuales son de particular importancia en el proceso de solución de problemas matemáticos. No hay duda de que la forma geométrica del pensamiento es de alto grado de abstracción, y por lo tanto se trata de una colección de pensamiento espacial, proporcionando operación espacial con las imágenes, y el pensamiento lógico, que permite el establecimiento de relaciones adecuadas entre las imágenes. A pesar de no ser una demostración formal, una demostración visual de una declaración particular es a veces llamada una “demostración sin palabras”. En general, las demostraciones sin palabras son imágenes o diagramas que ayudan al observador ver por qué la declaración puede ser cierta, y proporcionar pistas visuales para estimular el 303 pensamiento matemático. En algunos casos, una prueba sin brillo se puede complementar con un análogo geométrico tan simple y hermoso que la verdad de una declaración es casi evidente a primera vista. El objetivo de la sección es mostrar cómo se pueden emplear algunas técnicas de visualización para producir imágenes que ayudan a los estudiantes a comprender las ideas matemáticas, pruebas y argumentos. Consideraremos varios ejemplos. Ejemplo 5.4.1 (Teorema de Pitágoras). La Figura 5.4.1 es un ejemplo de la histórica demostración visual del Teorema de Pitágoras en el caso del triángulo de lados con medidas (a, b, c) : a2 b2 c2 (5.4.1) Fig. 5.4.1 (autor desconocido). Teorema de Pitágoras: a2 b2 c2 . Los siguientes seis ejemplos fueron reproducidos de Nelsen (1993, 2000). Ejemplo 5.4.2 (Suma de una progresión geométrica). La Figura 5.4.2 es otro ejemplo que demuestra la suma S 1 1 1 4 42 43 304 1 ... 4n (5.4.2) de la progresión geométrica es S 13 . En efecto, supongamos que el área del triángulo equilátero es uno y luego dividimos lo en cuatro triángulos equiláteros iguales. El área del triángulo central (blanco) es 1 4 . Luego vamos a repetir sin fin el mismo procedimiento con el triángulo superior. Cada término de la progresión coincide con el área del triángulo correspondiente. Al sumar las áreas de los triángulos blancos obtenemos S 13 (Fig.5.4.2). Fig.5.4.2 (Rick Mabry). Cálculo de la suma de la progresión geométrica (5.4.2) usando el triángulo equilátero con el área igual a uno. Ejemplo 5.4.3 (Suma de cualquier progresión geométrica). En general, usando las relaciones entre los lados de triángulos semejantes es fácil demostrar que la suma de una progresión geométrica S 1 r r 2 r3 r n ... es 1/ (1 r ) . En efecto (véase Fig. 5.4.3), 1 r r2 r3 1 r n ... 305 1 1 r (5.4.3) Fig.5.4.3 (Benjamin G. Klein & Irl C. Bivens). Suma de una progresión geométrica usando triángulos semejantes. Ejemplo 5.4.4 (Desigualdad de las medias aritmética y geométrica). Sean a 0 y b 0 . La desigualdad ab ab 2 se demuestra sin palabras. Fig.5.4.4 (Charles D. Gallant). Desigualdad de las medias aritmética y geométrica. 306 (5.4.4) En otra demostración geométrica, basta construir un triángulo rectángulo cuya hipotenusa sea (a b) / 2 y un cateto sea (a b) / 2 . Entonces, por el teorema de Pitágoras, el otro cateto será ab . Ejemplo 5.4.5 (Las fórmulas de la tangente del ángulo mitad). Las formulas tan 2 sin 1 cos 1 cos sin (5.4.5) se deducen directamente de la figura 5.4.5. Fig.5.4.5 (R.J. Walker). Las fórmulas de la tangente del ángulo mitad. Ejemplo 5.4.6 (La distancia entre un punto y una línea). La distancia d entre un punto (a, b) y una línea se obtiene de dos triángulos rectángulos (Fig.5.4.6): d ma c b 1 1 m2 307 (5.4.6) Fig.5.4.6 (R.L. Eisenman). La distancia entre un punto y una línea. Ejemplo 5.4.7 (Las fórmulas de doble ángulo). Los triángulos ACD y ABC son semejantes. Por lo tanto, CD / AC BC / AB , es decir, sin 2 / 2cos 2sin / 2 , y sin 2 2sin cos (Fig.5.4.7). Por otra parte, AD / AC AC / AB , es decir, (1 cos 2 ) / 2cos 2cos / 2 , y cos2 2cos 2 1 cos 2 sin 2 . Fig.5.4.7 (Roger B. Nelsen). Las fórmulas de doble ángulo. 308 Ejemplo 5.4.8 (Teorema de Napoleón). Si sobre cada lado de un triángulo arbitrario se construyen respectivos triángulos equiláteros, tanto hacia el exterior (Fig. 5.4.5) como hacia el interior del triángulo, entonces los centros de dichos triángulos forman un triángulo equilátero NMP. Es preciso notar que los círculos circunscritos a los triángulos equiláteros pasan por un mismo punto F , la línea NP es mediatriz del ángulo ANF, la línea NM es mediatriz del ángulo FNC, el ángulo ANC es 120° y, por lo tanto, el ángulo PNM es 60° (Fig.5.4.5). De la misma manera se demuestra que los otros dos ángulos del triángulo NMP también son iguales a 60°. Fig.5.4.8 (Mario Dalcìn, 2005). Teorema de Napoleón. 309 Referencias Allaire, G., y S.M. Kaber, Numerical Linear Algebra. Nueva York, Springer, 2008. Ames, W.F., Numerical Methods for Partial Differential Equations. Boston, Academic Press, 1992. Bakhvalov, N.S., Numerical Methods. Vol. 1, Moscú, Nauka, 1973 (en ruso). Bellman, R., Introduction to Matrix Analysis. Nueva York, McGrow-Hill, 1960. Bhatia, R., Matrix Analysis. Nueva York, Springer, 1997. Burden, R.L., y J.D. Faires, Numerical Analysis. Boston, Brooks/Cole, 2011. Businger, P., y G.H. Golub, Linear Least Squares Solutions by Householder Transformations. Numer. Math., 7, 269-276, 1965. Cayley, A., The Collected Mathematical Papers of Arthur Cayley, I (1841–1853), Cambridge University Press, pp. 332–336, 1889. Chapra, S.C. y R.P. Canale, Métodos Numéricos Para Ingenieros. México, McGraw Hill, 2002. Ciarlet, P.G., Introduction to Numerical Linear Algebra and Optimisation. Cambridge, Cambridge University Press, 1995. Collatz, L.O., The Numerical Treatment of Differential Equations. Berlin, Springer-Verlag, 1966. Cramer, G., Introduction à l’Analyse des Lignes Courbes Algébriques. Geneva: Europeana. pp. 656–659, 1750. Dalcìn, M., El Teorema de Napoleòn. Instituto de Profesores Artigas. Uruguay, 2005 (archivo 2121-6240-1-PB.pdf online). 310 Demmel, J.W., Applied Numerical Linear Algebra. Berkeley, University of California, SIAM, 1997. Durran, D.R., Numerical Method for Wave Equations in Geophysical Fluid Dynamics. Nueva York, Springer, 1999. Faddeev, D.K., y V.N. Faddeeva, Computational Methods of Linear Algebra. San Francisco, H.W. Freeman, 1963. Forsythe, G.E., y C.B. Moler, Computer Solution of Linear Algebraic Systems. PrenticeHall, Englewood Cliffs, N.J., 1967. Forsythe, G.E., y W.R. Wasow, Finite Difference Methods for Partial Differential Equations. Nueva York, J. Wiley, 1960. Forsythe, G.E., M.A. Malcolm, y C.B. Moler, Computer Methods for Mathematical Computations. Prentice-Hall, Englewood Cliffs, N.J., 1977. Fox, L., An Introduction to Numerical Linear Algebra. Londres, Oxford University Press, 1964. Francis, J.F.G., The QR Transformation. A Unitary Analogue to the LR Transformation. I. Computer J., 4, 265-271, 1961/62. The QR Transformation. II, ibid., 332-345, 1961/62. Gantmacher, F.R., Theory of Matrices. Vol. 1-2, Paris, Dunod, 1966. Givens, J.W., Numerical Computations of the characteristic values of a real symmetric matrix. Oak Ridge National Laboratory Report ORNL-1574, 1954. Godunov, S.K., y V.S. Ryabeñkii, The Theory of Difference Schemes – An Introduction. Fizmatgiz, Moscow, 1962 (en ruso); Amsterdam, North Holland, 1964. 311 Golub, G., Numerical Methods for Solving Linear Least Squares Problems. Numer. Math., 7, 206-216, 1965. Golub, G., y W.Kahan, Calculating the Singular Values and Pseudoinverse of a Matrix. SIAM J. Numer. Anal., Ser. B, 2, 205-224, 1965. Golub, G., y C.F. Van Loan, Matrix Computations. Oxford, North Oxford Academic, 1986. Golub, G.H., y J.M. Ortega, Scientific Computing and Differential Equations. Introduction to Numerical Methods. Boston, Academic Press, 1992. Hamilton, A.G., Linear Algebra. Cambridge, Cambridge University Press, 1989. Higham, N.J., Accuracy and Stability of Numerical Algorithms. Philadelphia, SIAM, 2002. Horn, R.A. y Ch.R. Johnson, Matrix Analysis. Cambridge, Cambridge University Press, 1999. Householder, A.S., The Theory of Matrices in Numerical Analysis. Nueva York, Blaisdell, 1964. Iserles, A., A First Course in the Numerical Analysis of Differential Equations. Cambridge, Cambridge University Press, 1998. Jacob, B., Linear Functions and Matrix Theory. Nueva York, Springer-Verlag, 1995. Kantorovich, L.V., On an Effective Method for the Solution of Extremal Problems for Quadratic Functionals. Doklady AN SSSR, 48 (7), 455-460, 1945. Kantorovich, L.V., On the Method of Steepest Descent. Doklady AN SSSR, 56 (3), 233-236, 1947. Kress, R., Numerical Analysis. Springer-Verlag, Nueva York, 1998. 312 Kublanovskaya, V.N., On Some Algorithms for the Solution of the Complete Eigenvalue Problem. Ž. Vyčisl. Mat. i Mat. Fiz. (J. Comput. Math. Math. Physics), 1, 555-570, 1961. Kunz, K.S., Numerical Analysis. Nueva York, McGraw-Hill Book Co., 1957. Kuttler, K., Elementary Linear Algebra. Kenneth Kuttler & Ventus Publishing ApS, Bookboon.com, 2012. Lancaster, P., Theory of Matrices. Nueva York, Academic Press, 1969. Lancaster, P., y M. Tismenetsky, Theory of Matrices, with Applications. Nueva York, Academic Press, 1985. Laub A.J., Matrix Analysis for Scientists & Engineers. Philadelphia, SIAM, 2005. Lawson, C., y R. Hanson, Solving Least Squares Problems. N.J., Prentice-Hall, Englewood Cliffs, 1974. Marchuk, G.I., Methods of Numerical Mathematics. Berlin, Springer-Verlag, 1982. Marchuk, G.I., y Yu.N. Skiba, Numerical Calculation of the Conjugate Problem for a Model of the Thermal Interaction of the Atmosphere with the Oceans and Continents. Izvestiya, Atmospheric and Oceanic Physics, 12 (5): 279-284, 1976. Marchuk, G.I., y Yu.N. Skiba, Role of the Adjoint Equation Solution in Estimating the Mean Temperature Anomalies. Atmósfera, 5 (3): 119-133, 1992. Maubach J.M., Numerical Methods in Scientific Computing. University of Pittsburgh, 2005. Meyer, C.D., Matrix Analysis and Applied Algebra, Philadelphia, PA, SIAM, 2000. Morton, K.W., y D.F. Mayers, Numerical Solution of Partial Differential Equations. Cambridge, Cambridge University Press, 1994. 313 Myron, B.A. III, y E.L. Isaacson, Numerical Analysis for Applied Science. Nueva York, Wiley-Interscience, 1998. Nekrasov, P.A., Sobre la solución de un sistema de ecuaciones lineales con un número grande de los incógnitos mediante aproximaciones. Suplemento al Vol. LXIX, Zapiski Akad. Nauk (Boletin de la Academia de Ciencias), 5, 1-18, 1892. Nelsen, R.B., Proofs Without Words: Exercises in Visual Thinking. The Mathematical Association of America, 1993. Nelsen, R.B., Proofs Without Words II: More Exercises in Visual Thinking. The Mathematical Association of America, 2000. Ortega, J.M, Matrix Theory. A Second Course. Nueva York, Plenum Press, 1987. Ortega, J.M, y W.G. Poole, Jr., An Introduction to Numerical Methods for Differential Equations. Pitman Publishing Inc., 1981. Parlett, B.N., The Symmetric Eigenvalue Problem. N.J., Prentice-Hall, Englewood Cliffs, 1980. Richtmyer, R.D., y K.W. Morton, Difference Methods for Initial Value Problems. Nueva York, Wiley, 1967. Roberts, S., y J. Shipman, Two-Point Boundary Value Problems: Shooting Methods. Nueva York, American Elsevier, 1972. Rutishauser, H., Solutions of Eigenvalue Problems with the LR-transformations. Nat. Bur. Standards Appl. Math. Ser., 49, 47-81, 1958. Rutishauser, H., Lectures on Numerical mathematics. Boston, Birkhäuser, 1990. Samarskii, A.A., Introduction to the Theory of Difference Schemes. Moscú, Nauka, 1971 (en ruso). 314 Skiba, Yu.N., Balanced and Absolutely Stable Implicit Schemes for the Main and Adjoint Pollutant Transport Equations in Limited Area. Revista Internacional de Contaminación Ambiental, 9 (2), 39-51, 1993. Skiba, Yu.N., A non-iterative implicit algorithm for the solution of advection-diffusion equation on a sphere. International Journal for Numerical Methods in Fluids, 78 (5), 257-282, 2015. Skiba, Yu.N., Spectral Approximation in the Numerical Stability Study of Nondivergent Viscous Flows on a Sphere. Numerical Methods for Partial Differential Equations, 14 (2), 143-157, 1998. Skiba, Yu.N., y J. Adem, On the Linear Stability Study of Zonal Incompressible Flows on a Sphere. Numerical Methods for Partial Differential Equations, 14 (5), 649-665, 1998. Skiba, Yu.N., Introducción a los Métodos Numéricos. México, Dirección General de Publicaciones y Fomento Editorial, La Universidad Nacional Autónoma de México, 2001. Skiba, Yu.N., Métodos y Esquemas Numéricos. Un Análisis Computacional. México, Dirección General de Publicaciones y Fomento Editorial, La Universidad Nacional Autónoma de México, 2005. Smith, G. D., Numerical Solution of Partial Differential Equations, Clarendon Press, Oxford, 1978. Stewart, G.W., Matrix Algorithms. Volume II: Eigensystems. Philadelphia, SIAM, 2001. Stewart, G.W., y Ji-guang Sun. Matrix Perturbation Theory. Nueva York, Academic Press, 1990. 315 Stoer, J. y Bulirsch, R., Introduction to Numerical Analysis. Springer-Verlag, Nueva York, 1993. Taylor, J.R., An Introduction to Error Analysis. University Science Books, Mill Valley, California, 1982. Thomas, L.H., Elliptic Problems in Linear Differential Equations over a Network. Watson Sci. Comput. Lab Report, Columbia University, New York, 1949. Tyrtyshnikov, E.E., Methods of Numerical Analysis. Moscow, Institute of Numerical Mathematics, Russian Academy of Sciences, 2006 (en ruso). Varga, R.S., Matrix Iterative Analysis. Prentice-Hall, Englewod Cliffs, New Jersey, 1962. Voevodin, V.V. y Yu.A. Kuznetzov. Matrices and Calculations. Moscú, Nauka, 1984. Volkov, E.A., Métodos Numéricos, Moscú, Mir, 1990. Watkins, D.S., The Matrix Eigenvalue Problem. GR and Krylov Subspace Methods. Washington, Washington State University, SIAM, 2007. Wilkinson, J.H., The Algebraic Eigenvalue Problem. Londres y Nueva York, Oxford University Press (Clarendon), 1965. Winter, D.J., Matrix Algebra. Nueva York, Maxwell Macmillan International, 1992. Yanenko, N.N., The Method of Fractional Steps. Nauka, Novosibirsk, 1967 (en ruso); Berlin, Springer-Verlag, 1971. Young, D., Iterative Solution of Large Linear Systems. Nueva York, Academic Press, 1971. 316 ÍNDICE ANALÍTICO de transporte, 287 normal, 85 Eficiencia de los cálculos, 280 Eigenespacio, 53 Eigenvalor, 34 Eigenvector, 34 Elemento pivote (rector), 147 Error absoluto, 94 de iteración, 217, 220 de redondeo, 10 en los datos iniciales, 10 relativo, 11, 94 Esferas en varias métricas, 25 Espacio col ( A) , 199 de Banach, 28 de dimensión finita, 17 euclidiano, 17 im( A) , 35 ker( A) , 35 lineal, 16 row(A) , 199 unitario, 17 Espectro de una matriz, 49 Esquema de Crank-Nicolson, 285 de Euler, 292 de Godunov, 288 de Horner, 295 de Lax-Wendroff, 293 Estabilidad, asintótica de una solución, 282, 292 condicional, 289 del método de Thomas, 186 de un algoritmo, 12 de un esquema, 288 de una solución, 282, 291, 293 exponencial, 282 numérica, 281 Estimación (número de iteraciones), 229 Extención de Laplace, 32 Algoritmo LR, 265 numérico, 9 QR, 268 Aproximación de un problema, 11, 288 Base, ortogonal, 19 ortonormal, 20 A-ortogonal, 261 Carrera directa (inversa), 149, 185, 186 Celda de Jordan, 54, 123 Círculos de Gershgorin, 126 Condición de Courant, 289 periódica, 195 Convergencia de la solución aproximada, 12, 289 de un proceso iterativo, 217, 221, 226, 228, 238, 250, 263 Criterio de convergencia de iteraciones, 221 de Sassenfeld, 235 de Sylvester, 142 Delta de Kronecker, 20 Desigualdad de Hölder, 23 de las medias aritmética y geométrica, 306 de Schwarz, 20 de Wielandt-Hoffman, 121 de Minkowski, 71 triangular, 22, 59 Determinante de una matriz, 31, 32 de Gram, 19 Distancia (métrica), 23 Ecuación de Burgers, 285 317 Factorización defectuosa, 54 definida positiva, 37, 41 de Gram, 19 de Hessenberg, 159, 269 de Hilbert, 97 de Jacobi, 119 densa, 81 de rotación de plano, 170 de Toeplitz, 120 diagonal, 39 dominante, 68 debilmente dominante, 230 diagonalizable, 51 dispersa, 81 escalar, 39 estrictamente regular, 139 estrictamente triangular superior, 46 hermitiana, 40 idempotente, 42 identidad (unidad), 30 inversa, 33, 142 invertible, 33, 35, 68 irreducible, 83, 230 jacobiana, 180 mal condicionada, 95 no defectuosa, 30 no singular, 33 normal, 45 nula, 30 ortogonal, 40 particionada, 136 p-banda, 82 pentadiagonal, 82 permutación, 83 reducible, 83, 230 semejante, 43, 51 semidefinida positiva, 41 simétrica, 40 simple, 54 traspuesta, 31 tridiagonal de Toepliz, 187 triangular superior, 37, 39 triangular inferior, 37, 39 tridiagonal, 82 unitaria, 23, 40 unitariamente semejante, 43 unitriangular, 139 de Cholesky, 142, 156 de un problema tripuntual con condiciones periódicas, 195 de una matriz tridiagonal, 144, 145 LDLT y LDL* , 144 LU, 138 PA=LU , 153 QR , 161 QR de una matriz rectangular, 163 QR (Gram-Schmidt), 163 QR (Givens), 169 QR (Householder), 177 Forma cuadrática, 56 canónica de Jordan, 49 definida positiva, 56 semidefinida positiva, 56 Fórmula Sherman-Morrison, 196 Sherman-Morrison-Woodbury, 198 Fórmulas de doble ángulo, 308 de la tangente del ángulo mitad, 307 Igualdad del paralelogramo, 72 Interpretación geométrica de la relación entre la estabilidad y convergencia, 289 Lema de Kellogg, 67 Límites espectrales de una matriz simétrica, 117 Línea característica, 288 Matriz adjunta, 31 antisimétrica, 40 antihermitiana, 40 banda, 82, 207 bien condicionada, 95 coherentemente ordenada, 248 conjugada, 31 consistente, 59 318 Método de Cramer, 137 de cuadrados mínimos, 199 de disparo, problema lineal, 190, 193 problema no lineal, 189 de eliminación de Gauss, 147 de Gauss-Seidel, 234 con relajación (SOR), 245 de iteraciones sucesivas, 216 de Jacobi, 225 con relajación, 243 de las potencias, 111 de minimización, 256 de Thomas, 183 del gradiente, 258 del gradiente conjugado, 262 simple, 261 Métrica, 23 Multiplicidad algebraica, 34, 53 geométrica, 53 Parámetro de relajación óptimo, 244 Polinomio característico, 34, 51 de Legendre, 168 diagonal, 56 Problema Cauchy, 287 espectral, 49 particular, 80 generalizado, 79 Proceso de deflación, 115 Producto escalar (interno), 17 Proyección ortogonal, 22 Proyector ortogonal, 22, 200 ortogonal elemental, 43 Norma de energía, 62 de Frobenius, 59 de Hilbert-Schmidt, 59 de Hölder (p-norma), 22 equivalencia, 25, 65 espectral, 60 euclidiana (vectorial), 22 matricial, 59 máxima por las columnas, 64 máxima por las filas, 63 p-norma de una matriz, 60 subordinada, 60 vectorial, 22 Nulidad de una matriz, 35 Número de condición, 91, 94, 104, 106 singular de una matriz, 107 Serie de Fourier, 296 numèrica, 297, 298, 302, 304, 305 Sistema bien condicionado, 92 mal condicionado, 92 ortonormal, 20 sobredeterminado, 78 Subespacio, 22 complemento ortogonal, 22 Suma de una serie finita, 299-301 Sustitución regresiva, 149 Radio espectral, 60 Rango de una matriz, 35 Reducción de Householder, 181 Residuo, 43 Rotaciones de Givens, 169 Teorema Bolzano-Weierstrass, 26 Brauer, 130 Gershgorin, 124 Hirsch, 128 Householder-John, 239 Kahan, 246 Lax, 287 LU , 140 Napoleòn, 309 Ortogonalización A-ortogonalización, 261 de Gram-Schmidt, 20 Óvalos de Cassini, 130 319 Ostrowsky, 247 Pitágoras, 304 Rutishauser, 267 Schur, 127 Schur y Toeplitz, 44 Stein-Rosenberg, 240 Wielandt-Hoffman, 121 Young, 250 Término residual, 91 Transformación de Givens, 170 de Householder, 176, 204 de Cayley, 175 Traza de una matriz, 35, 59 Valores singulares de una matriz, 86 Vector Adjunto, 18 complejo conjugado, 18 linealmente independientes, 18 modulo, 17 norma, 22 ortogonales, 19 ortonormales, 20 traspuesto, 17 Vectores conjugados, 262 320 SIGNOS CONVENCIONALES x - vector columna x T - vector traspuesta (vector fila) x T - vector adjunto x - modulo de x (A) - autovalor de A ( A) max i - radio espectral de A 1i n im( A) - imagen de A x - norma de x ker( A) - espacio nulo de A x - p-norma (de Hölder) de x rk( A) - rango de A p x, y max - elemento máximo del conjunto M - producto escalar de x y y xM ( x, y) - métrica (distancia) entre x y y sup - límite superior exacto de M - operador de Laplace S ( y 0 , r ) - esfera con centro y 0 y radio r M N - unión de dos conjuntos M y N xM M N - intersección de dos conjuntos MyN AT - matriz traspuesta x M - inclusión de un elemento x al conjunto M A* - matriz adjunta A 1 - matriz inversa L2a ,b - espacio de funciones f (x) que tienen la integral acotada diag{ a1 , a2 ,..., an } - matriz diagonal E=diag{ 1,1,...,1 } - matriz identidad a A - norma de la matriz A A A F p b 2 f ( x) dx f ( x ), g ( x ) - producto escalar de dos funciones f (x) y g (x) - norma de Frobenius de A lim xk - límite de los elementos xk - p-norma de A k (A) - número de condición de A i im0 - conjunto de m+1 elementos i tr A - traza de A det A - determinante de A 321 View publication stats m i 1 ai - suma de m elementos a i