INTRODUCCION A LA FISICA Luis Rodríguez Valencia1 Departamento de Física Universidad de Santiago de Chile 27 de marzo de 2003 1 email: lhrodrig@lauca.usach.cl II Contenidos 1. Espacio tiempo 1.1. Conceptos. . . . . . . . . . . . . . . . . . . . . . . . 1.2. Unidades. . . . . . . . . . . . . . . . . . . . . . . . 1.3. Teorías en física. . . . . . . . . . . . . . . . . . . . 1.4. Sistemas de referencia. . . . . . . . . . . . . . . . . 1.5. Escalas de tiempos y longitudes. . . . . . . . . . . . 1.6. Descripción del movimiento. . . . . . . . . . . . . . 1.6.1. Movimiento unidimensional. . . . . . . . . . 1.6.2. Desplazamientos en el espacio. . . . . . . . . 1.7. Vectores. . . . . . . . . . . . . . . . . . . . . . . . . 1.7.1. Notación. . . . . . . . . . . . . . . . . . . . 1.7.2. Multiplicación de un vector. por un escalar. 1.7.3. Vectores unitarios. . . . . . . . . . . . . . . 1.7.4. Vectores unitarios cartesianos. . . . . . . . . 1.7.5. Componentes cartesianas de un vector. . . . 1.7.6. Vector nulo. . . . . . . . . . . . . . . . . . . 1.7.7. Algunas propiedades. . . . . . . . . . . . . . 1.7.8. Resta de vectores. . . . . . . . . . . . . . . . 1.7.9. Producto escalar de vectores. . . . . . . . . 1.7.10. Otras propiedades. . . . . . . . . . . . . . . 1.8. Velocidad y aceleración. . . . . . . . . . . . . . . . 1.8.1. Vector posición. . . . . . . . . . . . . . . . . 1.8.2. Vector velocidad. . . . . . . . . . . . . . . . 1.8.3. Vector aceleración. . . . . . . . . . . . . . . 1.8.4. Velocidades absolutas y relativas. . . . . . . 1.9. Trayectoria. . . . . . . . . . . . . . . . . . . . . . . 1.10. Transformación de Galileo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 3 3 4 5 6 7 10 11 11 12 12 13 13 13 14 14 14 15 15 15 15 16 16 17 18 CONTENIDOS IV 1.11. La velocidad de la luz en el vacío. . . . . . . 1.11.1. Concepto de simultaneidad. . . . . . 1.11.2. Un modelo de reloj. . . . . . . . . . . 1.11.3. La transformación de Lorentz. . . . . 1.11.4. Cantidad de movimiento. . . . . . . . 1.11.5. El efecto Doppler para la luz. . . . . 1.11.6. El efecto Doppler para otras señales. 1.12. Problemas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Desarrollo del método científico. 2.1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Modelos del Cosmos. . . . . . . . . . . . . . . . . . . . . . . 2.2.1. Modelo de Ptolomeo. . . . . . . . . . . . . . . . . . . 2.2.2. Modelo de Copérnico. . . . . . . . . . . . . . . . . . 2.2.3. Mejores modelos. . . . . . . . . . . . . . . . . . . . . 2.2.4. Johannes Kepler. . . . . . . . . . . . . . . . . . . . . 2.2.5. Las leyes de Kepler. . . . . . . . . . . . . . . . . . . . 2.2.6. Sir Isaac Newton. La unificación de la Física y la Astronomía. . . . . . . . . . . . . . . . . . . . . . . . . 2.3. La difusión de método científico. . . . . . . . . . . . . . . . . 2.3.1. La edad clásica de la Ciencia. . . . . . . . . . . . . . 2.4. El método científico. . . . . . . . . . . . . . . . . . . . . . . 2.5. Los cambios actuales. . . . . . . . . . . . . . . . . . . . . . . 2.5.1. Hitos en la historia de la Física Moderna . . . . . . . 3. Gravitación. 3.1. Desarrollo de la teoría gravitacional. . . . . . . . . . . . . . 3.1.1. Ley inversa al cuadrado de la distancia. . . . . . . . . 3.1.2. Velocidad de escape. . . . . . . . . . . . . . . . . . . 3.1.3. Peso y masa. . . . . . . . . . . . . . . . . . . . . . . 3.1.4. Interacción entre los cuerpos celestiales. . . . . . . . . 3.1.5. Teoría potencial. (Usted puede omitir esto) . . . . . . 3.1.6. Medidas absolutas de la gravedad. . . . . . . . . . . . 3.1.7. Medidas relativas de la gravedad. . . . . . . . . . . . 3.1.8. La Teoría gravitacional y otros aspectos de la Física. 3.1.9. Teorías del campo de gravitación. . . . . . . . . . . . 3.1.10. Los campos gravitacionales y la teoría general de relatividad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 19 21 23 24 26 27 28 . . . . . . . 33 33 34 34 36 36 37 38 . . . . . . 40 42 44 45 46 46 . . . . . . . . . . 51 51 54 55 55 56 57 59 60 60 61 . 62 CONTENIDOS V 3.1.11. Los caminos de partículas y luz. . . . . . . . . . . . . . 64 3.1.12. Estudio experimental de la gravitación. . . . . . . . . . 64 3.1.13. Datos actuales de las órbitas planetarias. . . . . . . . . 66 4. Caída libre y movimiento de proyectiles. 4.1. Aceleración. . . . . . . . . . . . . . . . . 4.2. Componentes cartesianas. . . . . . . . . 4.2.1. Condiciones iniciales particulares. 4.2.2. Ecuación de la trayectoria. . . . . 4.2.3. Parábola de seguridad. . . . . . . 4.2.4. Alcance máximo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 69 70 71 72 72 74 5. La evolución de las estrellas. 79 5.0.5. Introducción. . . . . . . . . . . . . . . . . . . . . . . . 79 5.0.6. Las cuatro fuerzas fundamentales. 5.0.7. Equilibrio de un gas. . . . . . . . 5.0.8. Sólidos y líquidos. . . . . . . . . . 5.0.9. La fuerza gravitacional. . . . . . . 5.0.10. Estados extremos de la materia. . 5.1. Formación de una estrella. . . . . . . . . 5.1.1. Agonía de una estrella. . . . . . . . . . . . . . 6. El Universo y su evolución. 6.1. Introducción . . . . . . . . . . . . . . . . . 6.2. La expansión del Universo. . . . . . . . . . 6.3. Propiedades generales del espacio tiempo. 6.3.1. Diagramas espacio tiempo. . . . . . 6.4. Horizonte observable. . . . . . . . . . . . . 6.4.1. El efecto Doppler cósmico. . . . . . 6.4.2. Radiación de fondo. . . . . . . . . . 6.5. El modelo estándar del Big Bang. . . . . . 6.6. Partículas elementales. . . . . . . . . . . . 6.7. Los grandes periodos del Universo. . . . . 6.7.1. Cosmología cuántica. . . . . . . . . 6.7.2. La era hadrónica. . . . . . . . . . . 6.7.3. La era leptónica. . . . . . . . . . . 6.7.4. La era radiativa y la núcleo síntesis. 6.7.5. La era estelar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 80 81 81 81 87 89 . . . . . . . . . . . . . . . 95 95 96 98 98 101 102 103 103 104 106 106 107 107 107 108 CONTENIDOS VI 7. Matemáticas. 109 7.1. Algunas funciones importantes. . . . . . . . . . . . . . . . . . 109 7.1.1. La función exponencial. . . . . . . . . . . . . . . . . . 109 7.1.2. El logaritmo. . . . . . . . . . . . . . . . . . . . . . . . 110 7.1.3. El número e. . . . . . . . . . . . . . . . . . . . . . . . . 111 7.2. Sumatorias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 7.2.1. Sumatorias notables. . . . . . . . . . . . . . . . . . . . 113 7.3. Gráficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 7.3.1. Correlación lineal : y = Ax + B (la línea recta). . . . . 115 7.3.2. Decaimiento con b < 0 (o crecimiento si b > 0) exponencial : y = yo ebx . . . . . . . . . . . . . . . . . . . . . 116 7.3.3. Modelo potencia y = AxB . . . . . . . . . . . . . . . . 117 7.3.4. Modelo con dos exponenciales: y = Aebx + Cedx . . . . . 119 7.4. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 7.5. Derivadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 7.6. Diferenciales. . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 7.7. Integrales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 7.7.1. El área bajo una curva. . . . . . . . . . . . . . . . . . . 124 7.7.2. La integral definida. . . . . . . . . . . . . . . . . . . . 126 7.7.3. Relación con la derivada. . . . . . . . . . . . . . . . . . 127 7.7.4. Resultado final. . . . . . . . . . . . . . . . . . . . . . . 128 7.7.5. La integral indefinida. . . . . . . . . . . . . . . . . . . 128 7.8. Elementos de cálculo numérico. . . . . . . . . . . . . . . . . . 129 7.8.1. Método de Newton para el cálculo de una raíz. . . . . . 129 7.8.2. Método iterativo para determinar una raíz de f (x) = x. 131 7.8.3. Método de la secante. . . . . . . . . . . . . . . . . . . . 132 7.8.4. Derivada numérica con dos puntos. . . . . . . . . . . . 133 7.8.5. Derivada con más puntos. . . . . . . . . . . . . . . . . 133 7.8.6. Un ejemplo. . . . . . . . . . . . . . . . . . . . . . . . . 134 7.9. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 8. Elementos de probabilidades 139 8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 8.2. Tómelo con calma. . . . . . . . . . . 8.3. Cosas concretas. . . . . . . . . . . . . 8.3.1. Lanzar un dado. . . . . . . . . 8.3.2. Lanzar un dardo a un blanco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 140 141 141 CONTENIDOS VII 8.3.3. Lanzar dos dados. . . . . . . . . . . 8.4. Probabilidad . . . . . . . . . . . . . . . . . 8.4.1. Población o Universo . . . . . . . . 8.4.2. Eventos simples . . . . . . . . . . . 8.4.3. Eventos compuestos . . . . . . . . 8.4.4. Probabilidad, caso discreto . . . . . 8.5. Sacar cuentas. . . . . . . . . . . . . . . . . 8.5.1. Concepto básico de multiplicación. 8.5.2. Permutaciones. . . . . . . . . . . . 8.5.3. Combinaciones. . . . . . . . . . . . 8.6. Variables aleatorias . . . . . . . . . . . . . 8.6.1. Distribución binomial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 142 142 142 142 142 146 147 147 147 149 150 8.6.2. Caso continuo . . . . . . . . . . . . . . . . . . . 8.6.3. Valor esperado, varianza y desviación estándar 8.6.4. Funciones de variables aleatorias . . . . . . . . . 8.6.5. Función distribución del promedio . . . . . . . . 8.6.6. Muestras pequeñas . . . . . . . . . . . . . . . . 8.6.7. Más sobre funciones distribución (fd ) . . . . . . 8.7. Ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 156 158 159 164 165 168 . . . . . . . 173 . 173 . 174 . 175 . 176 . 178 . 180 . 182 . . . . . 185 . 185 . 186 . 189 . 189 . 190 9. Estadística de datos 9.1. Introducción . . . . . . . . . . . . . . . . . . . . . 9.2. Estadígrafos muestrales . . . . . . . . . . . . . . . 9.3. Distribuciones de frecuencia . . . . . . . . . . . . 9.4. Método de mínimos cuadrados . . . . . . . . . . . 9.4.1. Variaciones . . . . . . . . . . . . . . . . . 9.4.2. Coeficiente de correlación lineal de Pearson 9.4.3. Resumen . . . . . . . . . . . . . . . . . . . 10.Modelos lineales. 10.1. Introducción. . . . . . . . . . . . . . . 10.2. Modelo lineal. . . . . . . . . . . . . . . 10.2.1. Estimación del parámetro σ. . . 10.2.2. Intervalos de confianza para α y 10.2.3. Valores particulares de tp . . . . . . . . . . β. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . CONTENIDOS VIII 11.Método experimental 193 11.1. Medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 11.2. Valor verdadero . . . . . . . . . . . . . . . . . . . . . . . 11.3. Estandarización . . . . . . . . . . . . . . . . . . . . . . . 11.4. Valores de algunas constantes fundamentales . . . . . . . 11.5. Las unidades básicas. . . . . . . . . . . . . . . . . . . . . 11.6. Introducción a errores . . . . . . . . . . . . . . . . . . . 11.6.1. Límites de las mediciones. . . . . . . . . . . . . . 11.7. Errores aleatorios . . . . . . . . . . . . . . . . . . . . . . 11.7.1. Error de una medida . . . . . . . . . . . . . . . . 11.7.2. Estimación de σ . . . . . . . . . . . . . . . . . . . 11.8. Sobre algunas características de los aparatos de medición. 11.9. Propagación de errores . . . . . . . . . . . . . . . . . . . 11.9.1. Función distribución de la suma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 196 198 198 199 199 201 202 203 204 205 206 11.9.2. Funciones distribución de dos variables . . . . . . . . . 207 11.10.Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 11.10.1.Ejemplos de simulación numérica . . . . . . . . . . . . 214 12.Métodos numéricos 12.1. Generación de números random . . . . . . . . 12.2. Generación de N(0, 1) . . . . . . . . . . . . . 12.3. Distribución del promedio . . . . . . . . . . . 12.4. Distribución t Student . . . . . . . . . . . . . 12.5. Integración numérica. . . . . . . . . . . . . . . 12.5.1. Método del punto medio: . . . . . . . . 12.5.2. Método del Trapecio: . . . . . . . . . . 12.5.3. Cotas de error: . . . . . . . . . . . . . 12.5.4. Método de Simpson: . . . . . . . . . . 12.5.5. Cota de error para método de Simpson: 12.6. Aproximaciones lineales y cuadráticas. . . . . 12.6.1. Diferencial: . . . . . . . . . . . . . . . 12.6.2. Aproximación lineal: . . . . . . . . . . 12.6.3. Aproximación cuadrática: . . . . . . . 12.7. Ajuste de curvas por polinomios. . . . . . . . 12.8. Método de Newton. . . . . . . . . . . . . . . . 12.8.1. Método de Newton-Raphson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 . 215 . 215 . 216 . 216 . 216 . 216 . 217 . 217 . 217 . 217 . 217 . 217 . 218 . 218 . 219 . 221 . 221 CONTENIDOS IX 12.9. Serie de Taylor y Maclaurin. . . . . . . 12.9.1. Serie importantes de Maclaurin. 12.10.Ecuaciones diferenciales ordinarias. . . 12.10.1.Método de Euler. . . . . . . . . 12.10.2.Método de Runge-Kutta. . . . . 12.10.3.Métodos predictor corrector. . . 12.10.4.Método de Milne: . . . . . . . . 12.10.5.Método de Adams. . . . . . . . 12.10.6.Ecuaciones de orden mayor. . . 12.11.Derivación numérica. . . . . . . . . . . 13.Apéndice 13.1. A) La distribución exponencial. . . 13.2. B) El proceso de Poisson. Detalles. 13.3. C) Algunos detalles matemáticos. . 13.4. D) La distribución binomial. . . . . 13.4.1. El valor esperado de m. . . 13.4.2. La varianza de m. . . . . . . 13.4.3. Límite para n grande . . . . 13.4.4. Caminata al azar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 224 224 224 225 225 225 225 226 226 . . . . . . . . 227 . 227 . 228 . 230 . 232 . 233 . 233 . 234 . 235 X CONTENIDOS Índice de figuras 1.1. Movimiento unidimensional . . . 1.2. Aquiles y la tortuga . . . . . . . . 1.3. Desplazamiento equivalente . . . 1.4. Suma de vectores. . . . . . . . . . 1.5. Multiplicación por escalar . . . . 1.6. Resta de vectores . . . . . . . . . 1.7. Movimiento relativo. . . . . . . . 1.8. Simultaneidad . . . . . . . . . . . 1.9. Reloj espejos paralelos a v . . . . 1.10. Reloj espejos perpendiculares a v 1.11. Colisión elástica. . . . . . . . . . 1.12. Efecto Doppler. . . . . . . . . . . 1.13. Doppler señales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 9 11 12 13 14 17 20 21 22 25 26 27 2.1. 2.2. 2.3. 2.4. 2.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 35 36 38 40 Modelo de Ptolomeo. . . . . . . Tycho Brahe . . . . . . . . . . . Movimiento aparente de Marte. Johanes Kepler . . . . . . . . . Isaac Newton . . . . . . . . . . . . . . . 4.1. parábola de disparo. . . . . . . . . . . . . . . . . . . . . . . . 73 4.2. Parábola de seguridad. . . . . . . . . . . . . . . . . . . . . . . 74 4.3. Alcance máximo. . . . . . . . . . . . . . . . . . . . . . . . . . 75 5.1. 5.2. 5.3. 5.4. El núcleo atómico. Atomo . . . . . . . Molécula . . . . . . presión ejercida por . . . . . . . . . . . . . . . un gas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 82 83 83 ÍNDICE DE FIGURAS XII 5.5. Orbitales solapándose. . . . . . . . . 5.6. Plasma de Fermi. . . . . . . . . . . . 5.7. Principio de exclusión de Pauli. . . . 5.8. Interacción débil. . . . . . . . . . . . 5.9. Sobre un millón de toneladas por cc. 5.10. Mar de neutrones. . . . . . . . . . . . 5.11. Evolución de las estrellas . . . . . . . 5.12. Estrella neutrónica o pulsar. . . . . . 5.13. Supernova 1987A . . . . . . . . . . . 5.14. Sistema binario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 84 84 85 85 86 88 90 91 92 6.1. Líneas de Universo . . . . . . . . . . . . . . . . . . . . . . . . 99 6.2. Conos de luz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 6.3. Intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 7.1. Correlación lineal. . . . . . 7.2. Decaimiento exponencial. . 7.3. Modelo potencia, . . . . . 7.4. En papel log-log . . . . . . 7.5. Dos exponenciales. . . . . 7.6. Tangente y derivada. . . . 7.7. Area bajo la curva. . . . . 7.8. Elemento de área. . . . . . 7.9. Método de Newton. . . . . 7.10. Iterar. . . . . . . . . . . . 7.11. Método de la secante. . . . 7.12. Tabla. . . . . . . . . . . . 7.13. Con errores. . . . . . . . . 7.14. Ejemplo. . . . . . . . . . . 7.15. Logística. . . . . . . . . . 8.1. 8.2. 8.3. 8.4. 8.5. 8.6. 8.7. Conferencia de Solvay de . . . . . . . . . . . . . . Distribución binomial. . Aleatorios. . . . . . . . . Distribución de Poisson. Area menor que z. . . . Area entre −1 y 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 117 118 118 119 122 125 127 130 131 132 135 135 136 137 1927 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 144 149 153 155 161 161 ÍNDICE DE FIGURAS XIII 9.1. histograma de frecuencias. . . . . . . . . . . . . . . . . . . . . 177 9.2. Variaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 11.1. medida con un pie de metro . . . . . . . . . . . . . . . . . . . 195 XIV ÍNDICE DE FIGURAS Capítulo 1 Espacio tiempo 1.1. Conceptos. Los conceptos de espacio y tiempo son centrales en todas las teorías de la Física. Aunque no se haya explicado aún de que se trata una teoría de la Física, adelantemos que ellas tratan con cantidades físicas. Existen conceptos físicos, algunos primarios y otros derivados de los anteriores, los cuales, aunque sean definidos en forma vaga, dan origen a las cantidades Físicas cuando se establece un método para asignarle un valor numérico al concepto. Este proceso, llamado definición operacional de una cantidad física, elimina las ambigüedades presentes en la definición del concepto, pues al seguir ese procedimiento, todos estaremos de acuerdo en el valor numérico de la cantidad física. Como explicaremos más adelante ello es relativo a la unidad de medida de la respectiva cantidad física. Claramente este es el caso respecto a los conceptos de espacio y tiempo. Tenemos nociones intuitivas, difícilmente expresables sin ser circulares (basadas en ellas mismas) y difícilmente coincidentes. El tiempo tiene que ver con aspectos tales como: el fenómeno A ocurre antes o después que el fenómeno B, o quizás simultáneamente. O bien que un proceso duró más o menos que otro. La cantidad física tiempo se define operacionalmente estableciendo valores numéricos ya sea relacionados con la ocurrencia de los sucesos, o con la duración de un proceso. Tal procedimiento debe involucrar un método experimental bien definido. Similarmente ocurre lo mismo con el concepto de espacio. Tenemos clara 2 Espacio tiempo intuición del significado de estar cerca o lejos. De la proximidad o la lejanía. Del mismo modo la cantidad física básica, relacionada con el concepto de espacio, la distancia, debe ser definida operacionalmente, terminándose allí las ambigüedades que pudieran existir. De esto trata el capítulo sobre métodos experimentales. Sin embargo queremos decir algo más aquí. Si tal proceso no es posible (la definición operacional), no es posible tratar en física con ese concepto. Nota 1.1 Si usted ha leído algo sobre mecánica cuántica. esta nota puede ser de su interés. La concepción de la existencia de un valor verdadero (exacto) puede ser discutida por quienes mal interpretan la mecánica cuántica (juicio del autor). La asignación de un número debe ser posible, al menos en principio, exacta. Es decir no se aceptan cantidades físicas definidas con incerteza. Esto parece contradictorio con la existencia de errores en los procesos de medición o bien con incertezas predichas por la mecánica cuántica. No es así. Creemos en la existencia de lo que se denomina “valor verdadero” tanto en las cantidades físicas del mundo microscópico como en las del mundo macroscópico. Otro problema es determinar ese valor. La teoría de errores clásica trata justamente de eso, y precisamente bajo la hipótesis de que existe un valor verdadero. Por otro lado, las incerteza intrínsecas de la mecánica cuántica no tienen que ver con el proceso de medición (el cual puede y en la teoría es exacto) sino que tiene que ver con la perdida de la capacidad de predicción de los resultados que ocurren en el futuro. La pérdida del determinismo. Así, podemos no saber que resultado de la energía va a resultar si la medimos, pero podemos medirla en forma exacta. Si no fuera así la pregunta es ¿qué diablos es la energía? En Física clásica por hipótesis el tiempo transcurre de la misma forma para todos los observadores, independientemente de su estado de movimiento, es decir el tiempo es una cantidad física absoluta. Sin embargo es necesario decir, que tal concepción ha cambiado. Desde la aceptación de la teoría de la relatividad, el tiempo es una cantidad física relativa al estado de movimiento del observador. O sea si para un observador el lapso de tiempo que transcurre entre dos eventos que ocurren en un determinado sistema de referencia es un determinado valor, ese valor es diferente para otros observadores. De hecho el observador que está en el sistema de referencia donde ocurren los eventos, es quien determina el menor valor para el intervalo de tiempo. 1.2 Unidades. 1.2. 3 Unidades. La cantidades físicas reciben valores numéricos relativos a la unidad de ella. Así, la unidad de tiempo, el segundo en el sistema internacional de unidades (SI) se define como Definicion 1.2.1 Un segundo es el tiempo que requiere un átomo de Cesio 133 para realizar 9.192.631.770 vibraciones, correspondientes a la transición entre dos niveles hiperfinos de su estado fundamental. La unidad de tiempo ha experimentado diversos cambios durante la historia de la física, pero siempre se ha utilizado algún sistema que efectúa algún movimiento periódico, o sea que (hipotéticamente) se repite cada cierto lapso igual de tiempo. Similarmente se utiliza el metro como unidad de medida de longitudes, cuya definición actual es Definicion 1.2.2 El metro se define como la distancia recorrida por la luz en el vacío en un intervalo de tiempo de 1/299,792,458 segundos. 1.3. Teorías en física. Aún cuando este es un tema complejo, aventuramos una respuesta a las preguntas ¿qué es una teoría física?, o ¿qué es una ley física? en una forma adecuada a un curso introductorio a la física. La física se preocupa de los fenómenos naturales, reconociendo los conceptos pertinentes y derivando de ellos cantidades físicas adecuadas, las cuales son representadas por ciertos símbolos. Las leyes físicas constituyen relaciones matemáticas entre algunos de esos símbolos, las cuales pueden ser deducidas matemáticamente de otras leyes físicas, o bien ser postuladas por cualquier razón. Sin embargo, ellas tienen que satisfacer un requisito básico: las leyes físicas son válidas si existe comprobación experimental, directa o indirecta, de ellas. A veces ocurre que una ley física falla en ciertas situaciones ya sea experimentales o en la ocurrencia de ciertos fenómenos. Aquí, pueden ocurrir diversas cosas. Por ejemplo (a) se restringe el uso de ellas excluyendo a las situaciones donde falla o (b) se modifica de modo de dar cuenta adecuada de los nuevos fenómenos. Algunas veces, la falla conduce a la elaboración de una nueva teoría, de donde se pueda deducir la ley correcta. 4 Espacio tiempo Por otro lado, cuando tenemos unas pocas leyes, a veces denominadas principios, de los cuales se pueda deducir, por métodos puramente matemáticos todo un conjunto de leyes que abarquen la totalidad de los fenómenos de un cierto ámbito, se dice entonces que tenemos una teoría física. Un ejemplo es la teoría clásica de la mecánica, donde de tres leyes o principios (de Newton), se pueden deducir todas las leyes que regulan el comportamiento mecánico de los cuerpos. Sin embargo como se estableció durante este siglo (siglo 20), las deducciones de esa teoría son incorrectas al menos en dos ámbitos, cuando las velocidades involucradas son cercanas a la velocidad de la luz o cuando las dimensiones de los cuerpos están en la escala del mundo atómico. Aquí se han seguido los dos caminos. Se han elaborado teorías nuevas que dan cuenta correctamente de los fenómenos nuevos (Mecánica relativista, Mecánica cuántica.), pero también se sigue utilizando la mecánica clásica en el ámbito donde ella conduce a resultados correctos. Es necesario además decir que dentro de una teoría caben ciertas hipótesis que realmente no tienen el rango de leyes deducibles de los principios básicos, y cuya validez descansa en las comprobaciones experimentales de las deducciones que siguen de su uso. Por ejemplo la llamada ley de gravitación universal de Newton, donde se establece que los cuerpos se atraen en forma proporcional al producto de sus masas y en forma inversa al cuadrado de la distancia. Por último, en una teoría tienen cabida símbolos que no representan cantidades físicas, pero que tiene por último la finalidad de hacer predicciones relativas a cantidades físicas. Es el caso de la mecánica cuántica. donde se utiliza el concepto de “función de onda”, o “estado del sistema”, que no constituyen cantidades físicas. Puede también ese ser el caso en la teoría de las partículas elementales donde se usan algunos conceptos que quizás no sean observables, pero son útiles en la construcción de la teoría. 1.4. Sistemas de referencia. Para la construcción de muchas teorías, sobre todo en aquellas que requieran del concepto de posición, se requiere especificar un sistema de referencia respecto al cual la posición queda definida. En algunas teorías, el tiempo es también relativo, siendo necesario en esos casos sistemas de referencia de espacio y tiempo. Ciertas teorías requieren de sistema privilegiados de referencia. La mecánica clásica es formulada en “sistemas inerciales de re- 1.5 Escalas de tiempos y longitudes. 5 ferencia”. Para Newton, el sistema natural de referencia lo constituyen las estrellas. En la formulación de la teoría clásica de la mecánica, se supone la existencia de al menos un sistema privilegiado de referencia, un Sistema inercial de referencia. Por definición, un sistema inercial de referencia es aquel (hipotético) sistema relativo al cual una partícula libre tiene velocidad constante o en particular nula (velocidad se define luego). Como consecuencia de la transformación de Galileo, ver más adelante, todo sistema que se traslade con velocidad constante respecto a uno inercial de referencia, es también sistema inercial de referencia. La existencia de uno por lo menos, sería materia de validación experimental, con las obvias dificultades que ello presenta. Se acepta que al menos aproximadamente, el marco de las estrellas fijas, lo es. Esta es una materia hoy en día de acuerdo internacional. En efecto en Agosto de 1997, la Unión Astronómica Internacional (IAU) decidió que a partir del primero de Enero de 1998, el IAU sistema de referencia celestial sea el sistema (ICRS), en reemplazo del sistema FK5. Hay abundantes referencias en la WEB, por ejemplo en http://hpiers.obspm.fr/webiers/general/syframes/icrsf/ICRS.html. Otro punto, final en esta discusión es relativo a la geometría. Aun cuando no hay discusión en qué matemática usar en la formulación de una teoría física, hay diversas geometrías, todas formuladas axiomáticamente y en consecuencia posibles de utilizar. ¿Qué geometría es adecuada para la descripción física del espacio? En física clásica la geometría Euclidiana ha probado ser adecuada. Sin embargo, y este es un tema complejo, en la formulación de la relatividad general, otras geometrías son adecuadas. (como ejemplo de una diferencia que se produce al usar diversas geometrías es: rectas paralelas pueden o no cortarse en uno o más puntos. O bien la suma de los ángulos de un triángulo puede ser o no 180o ) 1.5. Escalas de tiempos y longitudes. TABLA Valores aproximados de algunos intervalos de tiempo en segundos. 6 Espacio tiempo Edad del universo Edad de la Tierra Un año Un día Tiempo entre latidos normales del corazón Periodo de las ondas sonoras audibles Periodo de las ondas de radio típicas Periodo de vibración de un átomo en un sólido Periodo de las ondas de luz visible Duración de una colisión nuclear Tiempo en el que la luz cruza un protón 5 × 1017 1, 3 × 1017 3, 2 × 107 8, 6 × 104 8 × 10−1 1 × 10−3 1 × 10−6 1 × 10−13 2 × 10−15 1 × 10−22 3, 3 × 10−24 TABLA Valores aproximados de algunas longitudes en metros. Distancia de la Tierra al quasar más conocido Distancia de la Tierra a las galaxias más remotas conocidas Distancia de la Tierra a la galaxia grande, más cercana (M 31) Distancia del Sol a la estrella más cercana (Próxima Centauri) Un año luz Radio medio de la órbita de la Tierra Distancia media de la Tierra a la Luna Distancia del ecuador al Polo Norte Radio medio de la Tierra Altitud típica de los satélites artificiales alrededor de la Tierra Tamaño típico de las partículas de polvo más pequeñas Tamaño de las células de la mayoría de los seres vivientes Diámetro de un átomo de hidrógeno Diámetro de un núcleo atómico 1.6. 1,4 × 1026 4 × 1025 2 × 1022 4 × 1016 9,46 × 1015 1,5 × 1011 3,8 × 108 1 × 107 6,4 × 106 2 × 105 1 × 10−4 1 × 10−5 1 × 10−10 1 × 10−14 Descripción del movimiento. El hombre ha estado consciente del movimiento, el paso de un cuerpo de un lugar a otro en un determinado lapso de tiempo desde que tiene uso de razón. Sin embargo la descripción del movimiento aunque hoy parece simple, 1.6 Descripción del movimiento. 7 x ∆x ∆t O t Figura 1.1: Movimiento unidimensional asombró al hombre por siglos. De hecho no fue hasta el trabajo de Galileo (Galileo Galilei, italiano, 1564-1642) que el hombre empezó a describir adecuadamente el movimiento de los cuerpos. Para ilustrar el estado de las cosas en los tiempos remotos, basta recordar la célebre paradoja de Zeno de Aquiles y la tortuga. De acuerdo a Zeno, Aquiles nunca podría alcanzar una tortuga porque para hacerlo primero tendría que alcanzar el punto de donde la tortuga partió. Sin embargo al alcanzarlo, la tortuga se habría movido alguna cantidad, estando de nuevo las cosas igual que al empezar. Este proceso debería ser entonces repetido un número infinito de veces de modo que Aquiles nunca alcanzaría la tortuga. Para la descripción del movimiento, Galileo debió asignar números para medir los conceptos de posición y tiempo, cuestión no fácil aquellos tiempos, por la ausencia de instrumentos adecuados para ello. 1.6.1. Movimiento unidimensional. Para el movimiento de un cuerpo en una línea recta, la posición del cuerpo puede ser indicada por una variable numérica x llamada su posición respecto a algún origen en esa recta. Esa variable indica la distancia del cuerpo al origen expresada en alguna unidad de medida, hoy en día esa unidad es el metro. Se dice que el cuerpo se mueve si dicha variable, denominada coordenada de posición, varía con el transcurso de tiempo. Considere por ejemplo que un cuerpo se mueve de modo que su coordenada de posición x varía con el tiempo de acuerdo al gráfico siguiente (fig.1.1) La curva de forma parabólica nos indica donde está el cuerpo sobre el eje X en cada tiempo, en particular nos dice que el cuerpo estuvo en el origen 8 Espacio tiempo O cuando el tiempo es cero. Velocidad media. La razón ∆x ∆t se define como la velocidad media en el intervalo de tiempo ∆t. Tal razón sería constante independiente del intervalo de tiempo si la curva que describe el movimiento fuera una recta, es decir si x variara linealmente con el tiempo. v̄ = Ejemplo 1.6.1 Suponga que un cuerpo se mueve de modo que x = 2t + t2 , calcule la velocidad media en el intervalo de tiempo entre t y t + ∆t. Solución. ∆x = x(t + ∆t) − x(t) = 2(t + ∆t) + (t + ∆t)2 − 2t − t2 = 2∆t + 2t∆t + (∆t)2 luego ∆x = 2 + 2t + ∆t, ∆t que se observa depende del tiempo t y del intervalo de tiempo ∆t. v̄ = N Velocidad instantánea. La velocidad instantánea se define por el límite (la derivada) v = lı́m ∆t→0 ∆x dx = . ∆t dt Con respecto a la gráfica x(t) la velocidad instantánea es la pendiente o sea la tangente del ángulo de inclinación que hace la tangente a la curva, con el eje del tiempo. 1.6 Descripción del movimiento. 9 A x T b' a' c b O a t Figura 1.2: Aquiles y la tortuga Movimientos con velocidad constante. La velocidad v permanece constante lo cual quiere decir que la posición del cuerpo varía linealmente con el tiempo de la forma x(t) = x(0) + vt, siendo x(0) la posición del cuerpo en t = 0. Mediante este tipo de gráficos es fácil comprender una solución geométrica a la paradoja de Zeno. Supongamos que la tortuga (T) y Aquiles (A) se mueven con velocidad constante, de manera que sus gráficas (fig.1.2) serán las rectas indicadas por (A) y (T) respectivamente. Como por hipótesis Aquiles tiene mayor velocidad que la tortuga, entonces su línea recta tiene mayor pendiente. Además se ilustra el hecho que la tortuga parte en t = 0 y Aquiles más tarde en (a). Como se explicó, cuando Aquiles alcance al punto (a0 ), la tortuga se ha movido a (b0 ) y se tiene una situación análoga a la de la partida. Sin embargo, y el gráfico lo muestra con claridad, todos esos procesos (un número infinito de ellos) toman un tiempo finito, pues cuando las dos rectas se cruzan, Aquiles ha alcanzado a la tortuga. Como puede comprenderse, la descripción del movimiento mediante variables de posición y tiempo que varían en forma continua se hace absolutamente necesario. La solución de la paradoja de Zeno así como de muchas otras tienen que ver con el continuo de valores de una variable. Así por ejemplo un intervalo de tiempo de un segundo puede ser dividido en un conjunto infinito de intervalos, pero a pesar de tenerse un número infinito, la suma de todos esos tiempos es justamente un segundo. 10 Espacio tiempo Como ejemplo 1= 1.6.2. 1 1 1 1 + + + + ··· 2 4 8 16 Desplazamientos en el espacio. Las ideas anteriores se generalizan a los movimientos en el espacio. Si se utiliza un sistema cartesiano de referencia, la posición de un punto respecto a ese sistema de referencia se define por el conjunto de sus coordenadas cartesianas (x, y, z). Definicion 1.6.1 Se dice que un punto se mueve respecto a un sistema de referencia, si sus coordenadas varían con el tiempo. Definicion 1.6.2 Un desplazamiento se define como cualquier cambio de posición de un punto en el espacio Este concepto básico de desplazamiento es en principio más elemental que el concepto de movimiento de un punto, puesto que no tiene relación con tiempos. Si un punto pasa de una posición A a otra posición B, de dice que el punto se ha desplazado de A a B. De su definición de desprende que un desplazamiento tiene tres características Su magnitud, que se define como la distancia entre el punto inicial y el punto final. Su dirección, correspondiente a la dirección de la recta AB. (rectas paralelas tienen la misma dirección) Su sentido, de A hacia B. Así el sentido del desplazamiento de B hacia A es contrario al desplazamiento de A hacia B. Además, desplazamientos sucesivos se combinan (o se suman) de acuerdo a la regla del triángulo, indicada en la figura siguiente, donde el desplazamiento A −→ B seguido del desplazamiento B −→ C es equivalente a un desplazamiento A −→ C. Eso queda absolutamente claro de la figura (1.3) que define la regla de combinación triangular de desplazamientos. Esta regla se generaliza en la sección siguiente para dar origen al concepto de vector. 1.7 Vectores. 11 B A C Figura 1.3: Desplazamiento equivalente 1.7. Vectores. Los vectores son objetos que tienen las características de los desplazamientos, es decir que tienen magnitud, dirección, sentido, y tales que la combinación (llamada suma vectorial) de dos de ellos, se obtiene de acuerdo a la regla del triángulo indicada en la figura anterior. Obviamente un ejemplo de vectores son los desplazamientos. Otro ejemplo de vectores en Física, lo constituyen las fuerzas que se aplican a los cuerpos. Ellas poseen las tres características básicas, magnitud dirección y sentido. La cuestión de que si las fuerzas se combinan de acuerdo a la regla de suma vectorial, puede y es establecida experimentalmente. Es decir debe establecerse que aplicar dos fuerzas dadas sobre un cuerpo es físicamente equivalente a aplicar una fuerza, llamada fuerza resultante que tiene la magnitud, dirección y sentido dada por la regla de adición vectorial. Debemos señalar que no es suficiente que un objeto tenga magnitud, dirección, sentido para ser considerado un vector. Deben necesariamente combinarse como tales. Las rotaciones de los cuerpos, en torno a la dirección de un eje, en un sentido u otro, y de cierta magnitud (el ángulo), no son vectores porque no se combinan como los desplazamientos. 1.7.1. Notación. Los vectores, cualquiera sea su naturaleza, los denotaremos con letras con flechas: a, B, f y la combinación o suma vectorial de ellos con el símbolo usual de suma +, es decir c = a + b, 12 Espacio tiempo a b a+b Figura 1.4: Suma de vectores. indica la suma, o combinación, o resultante de los dos vectores a y b. Naturalmente solo podremos sumar vectores del mismo tipo: desplazamientos, fuerzas, otros (fig.??). La magnitud de un vector. a la denotaremos por |a| . 1.7.2. Multiplicación de un vector. por un escalar. Si a es un vector y λ es un escalar (número real) definimos λa como el vector paralelo al vector a, de magnitud |λ| veces la magnitud de a, y del mismo sentido del vector a si λ > 0 y de sentido contrario si λ < 0. (fig.1.5) 1.7.3. Vectores unitarios. Al vector paralelo y del mismo sentido que el vector a, pero de magnitud unidad lo denotaremos por â. Entonces obviamente tenemos la siguiente importante relación a = |a| â. 1.7 Vectores. 13 λa a a= a a a Figura 1.5: Multiplicación por escalar 1.7.4. Vectores unitarios cartesianos. Los vectores de magnitud unidad, paralelos y en el sentido positivo de los ejes cartesianos, los denotaremos por ı̂, ̂, k̂ 1.7.5. Componentes cartesianas de un vector. Todo vector A (en tres dimensiones), puede ser escrito como A = Ax ı̂ + Ay ̂ + Az k̂, donde Ax , Ay , Az se denominan componentes cartesianas del vector. 1.7.6. Vector nulo. Un vector de magnitud cero, se denomina vector nulo y lo indicaremos por 0, y a veces simplemente por 0. 14 Espacio tiempo 1.7.7. Algunas propiedades. Pueden establecerse algunas propiedades básicas a+b (a + b) + c (−1)a + a a+0 λ0 = = = = = b + a, a + (b + c), 0, a, 0. Al vector (−1)a lo denotaremos simplemente −a. 1.7.8. Resta de vectores. Se define al vector diferencia a − b = a + (−1)b. -b a -b a b a+b Figura 1.6: Resta de vectores 1.7.9. Producto escalar de vectores. Dados dos vectores a, y b, se define el producto escalar de ellos al número real ¯ ¯ ¯ ¯ a · b = |a| ¯b¯ cos α, siendo α el ángulo que forman las direcciones de ellos. 1.8 Velocidad y aceleración. 1.7.10. 15 Otras propiedades. Puede establecerse que |a| = q a2x + a2y + a2z , a · b = ax bx + ay by + az bz , a ± b = (ax ± bx )ı̂ + (ay ± by )̂ + (az ± bz )k̂. 1.8. 1.8.1. Velocidad y aceleración. Vector posición. Si la posición de un punto en tiempo t es el punto P, se define el vector posición del punto al vector desde el origen al punto P, es decir −→ r(t) = OP = xı̂ + ŷ + z k̂. 1.8.2. Vector velocidad. El vector v(t), velocidad del punto en tiempo t se define por r(t + ∆t) − r(t) dr(t) = ∆t→0 ∆t dt dy dz dx ı̂ + ̂ + k̂. = dt dt dt v(t) = lı́m Es decir el vector velocidad es un vector cuyas componentes cartesianas son dx , dt dy = , dt dz . = dt vx = vy vz 16 Espacio tiempo 1.8.3. Vector aceleración. El vector a(t), aceleración del punto en tiempo t se define por dv(t) v(t + ∆t) − v(t) = , ∆t→0 ∆t dt dvy dvz dvx ı̂ + ̂ + k̂. = dt dt dt a(t) = lı́m Es decir el vector aceleración es un vector cuyas componentes cartesianas son dvx , dt dvy = , dt dvz . = dt ax = ay az 1.8.4. Velocidades absolutas y relativas. El estado de movimiento o reposo es un concepto relativo. En la descripción del movimiento cualquier sistema de referencia puede ser considerado en reposo. Si elegimos arbitrariamente un sistema de referencia S0 como estando en reposo, entonces se acostumbra a llamar las velocidades y aceleraciones respecto a ese sistema como velocidades y aceleraciones absolutas. Si existe otro sistema S que se mueva respecto al primero, las velocidades y aceleraciones respecto al segundo sistema se suelen llamar velocidades y aceleraciones relativas. En un tratamiento simplificado, supongamos que el segundo sistema de referencia S se traslada sin rotaciones respecto al primero como se indica en la figura (1.7), entonces, en física clásica, vale la llamada transformación de Galileo −→ r = OA + r0 , y en consecuencia, si se deriva respecto al tiempo se obtiene vabs = vA + vrel , es decir, la velocidad absoluta se obtiene agregando a la velocidad relativa, la velocidad del sistema móvil. Como se explica más adelante, esta transformación no es válida para velocidades cercanas a la velocidad de la luz. 1.9 Trayectoria. 17 S0 S r' A r O Figura 1.7: Movimiento relativo. 1.9. Trayectoria. Se define la trayectoria del punto, como el lugar geométrico de las posiciones ocupadas por el punto para todo tiempo. La llamada ecuación paramétrica de la trayectoria (con parámetro tiempo) es x = x(t), y = y(t), z = z(t). Ejemplo 1.9.1 Por ejemplo x = A cos ωt, y = B sin ωt, z = pt, . con A, B, ω, y p constantes, representa un trayectoria llamada hélice. En dos dimensiones, la ecuación cartesiana de la trayectoria es y = y(x). Ejemplo 1.9.2 Por ejemplo y = x − 5x2 , representa un trayectoria parabólica. 18 Espacio tiempo En tres dimensiones, la ecuación cartesiana de la trayectoria puede ser escrita en términos del parámetro z (por ejemplo) x = x(z), y = y(z). Ejemplo 1.9.3 Como ejemplo la ecuación de una hélice puede ser igualmente escrita como ω x = A cos z, p ω y = B sin z. p 1.10. Transformación de Galileo. La transformación de Galileo que relaciona velocidades relativas entre sistemas que se trasladan uno respecto al otro con velocidad constante v, por simplicidad a lo largo del eje OX, supone que el tiempo es universal y establece que x0 = x − vt, o bien en términos de velocidades u0 = u − v. 1.11. La velocidad de la luz en el vacío. Como se ha señalado, la velocidad de la luz en el vacío ha sido establecida con extraordinaria precisión, y se acepta hoy en día que ella es exactamente de magnitud c = 299,792,458 (m/s), dejando las incertezas experimentales a la definición del metro. Sorprendentemente, se descubrió que este valor es independiente de la velocidad del observador, o de la fuente emisora luminosa, en flagrante contradicción con la transformación de Galileo. Esto trajo dramáticas consecuencias para la física, en particular para los conceptos de simultaneidad y de tiempo. 1.11 La velocidad de la luz en el vacío. 1.11.1. 19 Concepto de simultaneidad. El hecho notable señalado en la sección anterior, en manos de Albert Einstein, conduce de manera natural a una revisión del concepto de simultaneidad y del tiempo. Aunque este tema pertenece a la llamada teoría de la relatividad, se presentan aquí algunos conceptos que no requieren de matemáticas muy complejas y que son muy interesantes. Si suceden dos eventos o sucesos en un mismo punto del espacio, es simple idear métodos físicos para decidir cual ocurrió primero, o cual ocurre después, o si ocurren simultáneamente, sin ser necesario usar relojes. Por ejemplo, si se encienden dos ampolletas A y B, tome una foto cuando se encienda la primera. Bueno, la foto registrará cuál está encendida y por lo tanto ella se encendió primero. Sin embargo, cuando los sucesos ocurren en diferentes puntos del espacio la cosa no es tan simple, pues habrá que considerar la velocidad con que la información nos llega. Si la velocidad de la luz dependiera del estado de movimiento de la fuente luminosa, ello complicaría aun más las cosas. Afortunadamente (¿o no?) la velocidad de la luz es independiente del sistema de referencia o del movimiento de la fuente emisora. Imagine que se quiere definir cuando dos sucesos A y B que ocurren en diferentes lugares son simultáneos o si o no lo son. Para ello coloque observadores en esos lugares y que emitan una señal luminosa al otro cuando ocurra el evento. Un tercer observador se coloca en el punto medio C. Definicion 1.11.1 Si las dos señales luminosas llegan simultáneamente al observador C en el punto medio (un hecho absoluto), entonces se dice que los eventos A y B ocurrieron simultáneamente. Esta definición, muy natural e intuitiva, sin embargo tiene consecuencias sorprendentes, en particular conduce a que el concepto de simultaneidad es un concepto relativo (No absoluto). En efecto, considere el experimento siguiente. Una barra, sistema S 0 , se mueve respecto a un sistema de referencia S con velocidad v a lo largo de la barra. Se encienden dos ampolletas simultáneamente respecto a S 0 en sus extremos, en consecuencia las dos señales luminosas llegan simultáneamente al punto medio. Veamos sin embargo que observa S. La figura (1.8) ilustra lo observado por S consecuente con el hecho que el coincide en que las señales llegan simultáneamente al punto medio. Para él, la señal proveniente de A ha viajado más distancia que la que partió de B, por lo tanto debe haber salido antes. De la figura, si llamamos L al largo de la barra en movimiento, podemos sacar algo más. En efecto se tiene 20 Espacio tiempo t1 A B t2 t3 Figura 1.8: Simultaneidad que L + v(t3 − t1 ), 2 L c(t3 − t2 ) = − v(t3 − t2 ), 2 c(t3 − t1 ) = de donde se obtiene Lv . − v2 Esta expresión indica cuantitativamente del hecho que el evento A ocurrió en t1 antes que el evento B que ocurrió en t2 . Aunque será demostrado más adelante L depende de la velocidad de la forma r v2 L = L0 1 − 2 , c t2 − t1 = c2 por lo que el resultado puede escribirse v/c2 L0 . t2 − t1 = q v2 1 − c2 Ejemplo 1.11.1 Una aplicación de lo anterior es la siguiente. Imagine que todo el eje O0X0móvil, es un largo tubo fluorescente que se enciende entero en t0 = 0, cuando los orígenes coinciden. ¿Cómo se ve el encendido desde el sistema respecto al cual el tubo se mueve? 1.11 La velocidad de la luz en el vacío. 21 Solución. De acuerdo al análisis anterior el punto que coincide con x = 0 se enciende en t = 0. El punto que está en una posición x se encenderá en un tiempo xv t= 2 . c − v2 de modo que se “ve” una señal viajando a la derecha con velocidad x c2 − v 2 , u= = t v ¡ √ ¢ mayor que c a menos que 12 5 − 12 c < v < c. N 1.11.2. Un modelo de reloj. Un modelo simple de reloj, un sistema que tiene una vibración periódica, consiste en dos espejos paralelos separados una distancia d0 entre los cuales está rebotando una señal luminosa. Para el dueño del reloj, la duración de un tick, ir de un espejo al otro y volver demora un tiempo τ= 2d0 . c Sin embargo, si ese mismo reloj es observado en movimiento, la luz, propagándose con la misma velocidad debe recorrer una distancia más larga, como se ilustra en la figura siguienteDe la figura (1.9), mediante el teorema de ct do vt Figura 1.9: Reloj espejos paralelos a v Pitágoras se tiene c2 t2 = d20 + v2 t2 , 22 Espacio tiempo t x=vt x=ct t2 t1 x d Figura 1.10: Reloj espejos perpendiculares a v de modo que el tiempo, en ir y regresar, el periodo del reloj será 2d /c 2d0 q 0 = . T = 2t = √ 2 v2 c − v2 1 − c2 Si el reloj se mueve con los espejos perpendiculares a la velocidad, figura (1.10)un análisis conduce a un resultado similar, pero que requiere una hipótesis adicional. La figura ilustra la ocurrencia de los eventos, salida, rebote y regreso del haz luminoso. Para calcular el tiempo de ida, t1 , tenemos que ct1 = d + vt1 , y para el de regreso t2 − t1 tenemos que c(t2 − t1 ) = d − v(t2 − t1 ), de donde d , c−v d = , c+v t1 = t2 − t1 1.11 La velocidad de la luz en el vacío. 23 y por lo tanto, el tiempo total se obtiene sumando T = t2 = 2dc 2d/c = 2 . 2 −v 1 − vc2 c2 Luego, el reloj tiene el mismo periodo para ambos movimientos si lo que requiere que 2d /c 2d/c q 0 = 2 , 2 1 − vc2 1 − vc2 r v2 , c2 o sea las longitudes paralelas al movimiento deben contraerse. Esto es efectivamente así, como veremos más adelante. d = d0 1.11.3. 1− La transformación de Lorentz. Permitiendo entonces que el tiempo es relativo al sistema de coordenadas, la transformación que reemplaza a la de Galileo, cuando el movimiento de los sistemas es a lo largo del eje x, compatible con que la rapidez de la luz es absoluta, es la llamada transformación de Lorentz x0 = γ(x − vt), y 0 = y, z 0 = z, vx t0 = γ(t − 2 ), c siendo 1 γ=q 1− . v2 c2 La transformación inversa puede mostrarse es x = γ(x0 + vt0 ), y = y0, z = z0, vx0 t = γ(t0 + 2 ), c 24 Espacio tiempo De allí puede deducirse la correspondiente transformación de componentes de velocidades relativas u y u0 , que resultan ser u0x = u0y = u0z = ux − v , x 1 − vu 2 qc uy 1 − v2 c2 x 1 − vu c2 q 2 uz 1 − vc2 1− vux c2 , . Si además sumamos los cuadrados tenemos que (u0x )2 + (u0y )2 + (u0z )2 = c2 c2 u2x + c2 u2y + c2 u2z − 2c2 vux + c2 v 2 − u2y v 2 − u2z v2 (c2 − vux )2 , y si u2x + u2y + u2z = c2 entonces (u0x )2 + (u0y )2 + (u0z )2 = c2 c4 − 2c2 vux + u2x v2 = c2 , (c2 − vux )2 comprobando el hecho que la rapidez de la luz es invariable. No como suele decirse más ligeramente que la velocidad de la luz es invariante. De hecho, la velocidad de la luz cambia de dirección de sistema en sistema. 1.11.4. Cantidad de movimiento. Si un cuerpo de masa m tiene velocidad u respecto al sistema S, la cantidad de movimiento respecto a ese sistema la definimos por p = m(u)u, siendo m(u) la masa de la partícula, la cual supondremos podría ser una función de la rapidez de la partícula. Mediante algunos argumentos podemos obtener la dependencia de m en la rapidez. Supongamos una colisión entre dos esferas elásticas iguales, de modo que en dos sistemas de referencia la colisión sea observada como en las dos figuras siguientes (1.11). Allí se ilustra la colisión observada en un sistema de referencia donde un partícula tiene 1.11 La velocidad de la luz en el vacío. 25 V V γU U W/γ W V Figura 1.11: Colisión elástica. rapidez W y la otra velocidad en dos componentes u y v. Si esa colisión es observada desde un sistema qque se propaga hacia la derecha con velocidad de magnitud v, la ytansformación de Lorentz de velocidades permite calcular las componentes de velocidades relativas a este sistema que resultan ser γU, V y Wγ . q 2 El sistema en movimiento tiene precisamente velocidad v y γ = 1/ 1 − vc2 . En la parte derecha de la figura están indicadas las respectivas velocidades relativas obtenidas utilizando la mencionada transformación de Lorentz de velocidades. Aceptaremos que en una colisión se conserva la cantidad de movimiento vista de todos los sistemas de referencia. Por simetría, la componente x de la cantidad de movimiento es evidentemente conservada desde ambos puntos de vista. Conservación de cantidad de movimiento en la dirección perpendicular al movimiento en ambos sistemas impone los siguientes requisitos √ m( u2 + v2 )u = m(W )W, s µ ¶2 W W m(γu)γu = m v 2 + . γ γ De aquí se desprende que W =u γ y entonces la primera se reduce a √ m( u2 + v 2 )u = γum(γu) 26 Espacio tiempo B A t1 x1 t2 x2 Figura 1.12: Efecto Doppler. o bién √ m( u2 + v2 ) = γm(γu) y tomando u = 0 se tiene 1 m(v) = q 1− (1.1) m(0). v2 c2 Ejercicio 1.11.1 Demuestre que la expresión (1.1) satisface (??), es decir que 1 1 1 q s =q µ ¶. 2 2 v2 2 1 − u c+v 1 − 2 u c2 1 − c12 v2 1− 1.11.5. c2 El efecto Doppler para la luz. Considere que desde un sistema móvil se lanzan pulsos luminosos hacia el origen del sistema fijo, separados en tiempo T 0 , desde el origen del sistema móvil, como se indica en la figura (1.12), eventos A y B De ese modo se tiene x01 = x02 = 0, t02 − t01 = T 0 , y mediante la transformación inversa de Lorentz se obtiene x1 = γvt01 , t1 = γt01 , y x2 = γvt02 , t2 = γt02 , 1.11 La velocidad de la luz en el vacío. 27 B A t1 t2 x2 x1 Figura 1.13: Doppler señales. entonces los tiempos de llegada, tomando en cuenta lo que deben recorrer los pulsos son x1 γvt01 = γt01 + = γt01 (1 + c c 0 x2 γvt 2 = t2 + = γt02 + = γt02 (1 + c c T1 = t1 + T2 v ), c v ), c es decir los pulsos llegan al origen separados un tiempo (1 + vc ) 0 v T = T2 − T1 = γT (1 + ) = q T, 2 c 1 − vc2 0 o bien p (1 + vc ) 0 v T = T2 − T1 = γT 0 (1 + ) = p T. c 1 − vc Si analizamos las frecuencias a la cual los pulsos se emiten y se reciben (f = 1/T ) tenemos p (1 − vc ) 0 f f= p 1 + vc 1.11.6. El efecto Doppler para otras señales. Si la velocidad de propagación de los pulsos es menor que c, con mínimas modificaciones respecto a la sección anterior obtenemos Igualmente se tiene x01 = x02 = 0, t02 − t01 = T 0 , y mediante la transformación inversa de Lorentz se obtiene lo mismo anterior. Entonces los tiempos de 28 Espacio tiempo llegada, tomando en cuenta lo que deben recorrer los pulsos con una velocidad u x1 γvt01 v T1 = t1 + = γt01 + = γt01 (1 + ), u u u 0 x2 γvt v 2 = γt02 + = γt02 (1 + ), T2 = t2 + u u u es decir los pulsos llegan al origen separados un tiempo (1 + uv ) 0 v q T. T = T2 − T1 = γT (1 + ) = 2 u 1 − vc2 0 Pero, en magnitud u = u0 − v 0 , 1 − vu c2 0 ) v(1 − vu v c2 = , 0 u u −v Entonces reemplazando y considerando las frecuencias a la cual los pulsos se emiten y se reciben (f = 1/T ) tenemos q 2 1 − vc2 (u0 − v)f 0 , f= v2 u0 0 u − c2 o bien 1 f=q 1− v2 c2 (1 − v 0 )f u0 siendo u0 > v, para el caso en que la fuente se aleja del observador. Además u0 es la velocidad con que la señal sale de la fuente, respecto a ella. 1.12. Problemas. Ejercicio 1.12.1 Una partícula se deja caer desde lo alto de una torre de modo que su altura y varía con el tiempo t de la forma y = 50 − 5t2 . Determine la trayectoria que es observada desde un automóvil que se aleja por el eje horizontal x con rapidez de 20 m/s. 1.12 Problemas. 29 Ejercicio 1.12.2 Si la posición de un móvil sobre un eje x varía de la forma x = 2t − t3 , determine la velocidad media en el intervalo de tiempo entre t y t + ∆t. Ejercicio 1.12.3 Respecto al ejercicio anterior, determine la velocidad instantánea en tiempo t tomando el límite ∆t → 0. Ejercicio 1.12.4 Una partícula se mueve de modo que su posición en el plano xy está determinada de acuerdo a x = 2+t y = 3 − t2 . Encuentre un sistema de referencia donde la partícula sea observada moviéndose en línea recta. Ejercicio 1.12.5 Dos partículas se mueven con velocidades constantes dadas por v1 = 2ı̂ + 3̂ + 5k̂, v2 = ı̂ + 2̂ + 3k̂. Determine el ángulo que forman esas velocidades entre sí. Ejercicio 1.12.6 Un cohete se aleja radialmente de la Tierra con velocidad constante de 1000 m/s en el plano ecuatorial. Considerando que la Tierra rota en torno de su eje dando una vuelta completa por día, determine la forma de la trayectoria observada por los habitantes de la Tierra. Ejercicio 1.12.7 Si una tortuga parte 100 m adelante de Aquiles y avanza a razón de 0,1 m/s, en cuanto tiempo Aquiles alcanza la tortuga si corre a 10 m/s. Ejercicio 1.12.8 Considere un triángulo rectángulo de catetos de longitudes iniciales 3 m y 5 m. Si el cateto más corto crece a razón de 0,5 m/s, manteniéndose la forma del triángulo, determine la razón a la cual crece la hipotenusa. 30 Espacio tiempo Ejercicio 1.12.9 Considere una esfera de radio inicial R = 1 m. Si el radio crece a razón constante de 1 m/s, determine la razón a la cual crece el volumen por unidad de tiempo. Ejercicio 1.12.10 Un cohete abandona la Tierra a una rapidez de 0,8c siendo c la velocidad de la luz. ¿Cuánto toma al segundero del reloj a bordo en dar una vuelta completa, determinado por observadores en la Tierra? Ejercicio 1.12.11 Una partícula elemental tiene un tiempo de vida media de 10−7 s cuando está en reposo. ¿Cuanto puede viajar a una velocidad de 0,99c desde que fue creada? Ejercicio 1.12.12 Explique porqué el punto luminoso en la pantalla de un televisor puede verse moviéndose más rápido que la luz. Ejercicio 1.12.13 Un hombre en la Luna, observa a dos naves que se acercan a él desde direcciones opuestas, cada una con una rapidez de 0,8c y 0,9c respectivamente. ¿Cuál es la velocidad relativa de una nave respecto a la otra? Ejercicio 1.12.14 Demuestre que si u y u0 indican velocidades relativas a sistemas que se trasladan respecto al eje x entonces q q 2 v2 2 2 2 ux − ux v + uy 1 − c2 + uz 1 − vc2 u · u0 = x 1 − vu c2 Ejercicio 1.12.15 Demuestre que (u0x )2 + (u0y )2 + (u0z )2 2 =c (c2 − v 2 )(u2x + u2y + u2z ) − 2c2 vux + c2 v2 + u2x v2 (c2 − vux )2 Ejercicio 1.12.16 Demuestre que q¡ ¢q¡ r u2 1 − c2 1− (u0 )2 ¡ ¢ 1− 2 = vux c 1 − c2 es decir la cantidad q¡ 1− u2 c2 ¢ v2 c2 ¢ , transforma de la misma manera que uy . , 1.12 Problemas. 31 Ejercicio 1.12.17 Considere la velocidad de la luz, en dirección especificada por los ángulos θ y φ de modo que uy = c sin θ cos φ, uz = c sin θ sin φ ux = c cos θ Demuestre entonces que el ángulo λ que hace c con c0 está dado por q 2 2 0 θ(1 − 1 − vc2 ) sin c·c cos(λ) = 2 = 1 − θ c 1 − v cos c independiente del ángulo que la velocidad de la luz hace con el eje y o z. (Este es un cálculo algebraico, pero realmente nadie observa ese ángulo, pues corresponden a velocidades en diferentes sistemas) Ejercicio 1.12.18 Determine la velocidad con que se aleja una estrella si una determinada línea espectral está corrida un 10 % en frecuencia respecto a su valor en reposo. Ejercicio 1.12.19 Sobre la transformación de Lorentz. Es posible deducir la transformación de Lorentz si se hacen algunas suposiciones muy simples. Primero que la relación entre coordenadas y tiempos en dos sistemas es lineal, es decir x0 = αx + βt, t0 = γx + δt. Segundo haga referencia al movimiento de los orígenes. Es decir si x0 = 0, entonces x = vt. Si x = 0, entonces x0 = −vt0 . Tercero si un objeto se mueve con la velocidad de la luz en un sistema, entonces se mueve con la velocidad de la luz en el otro, es decir si x = ct, entonces x0 = ct0 . Por último, la transformación inversa debe tener la misma forma, excepto por el signo de la velocidad relativa entre los dos sistemas. 32 Espacio tiempo Capítulo 2 Desarrollo del método científico. 2.1. Introducción. Aristóteles pensaba que las substancias que constituían la Tierra eran diferentes de las substancias existentes en los Cielos. El también creía que la dinámica, la rama de la Física que describe los movimientos, estaba determinada esencialmente por la naturaleza de la substancia que se movía. Así, limitándonos a lo esencial, Aristóteles tenía la creencia de que una piedra caía hacia el suelo porque eran substancias similares. En términos de sus cuatro elementos básicos, la piedra era esencialmente “tierra”. De la misma forma el humo se elevaba porque era principalmente “aire” (y algo de “fuego”) y por lo tanto el humo deseaba estar cerca del “aire ”y lejos de la “tierra” y del “agua”. Por similares argumentos él pensaba que los cielos estaban formados por la más perfecta de las substancias, la quinta esencia, la cual poseía por su naturaleza la tendencia de efectuar un movimiento perfecto, es decir circular. El también pensaba que los objetos en la Tierra se movían mientras fueran empujados, de modo que ellos se detenían apenas se eliminaban las fuerzas aplicadas. Uno de los problemas que tuvo Aristóteles fue explicar porqué una flecha lanzada mediante un arco, continuaba volando aún después de que la cuerda terminaba su contacto con la flecha. Algunas explicaciones fueron esbozadas, por ejemplo que la flecha en su vuelo producía un vacío detrás. El aire se precipitaba en ese vacío empujando además a la flecha. 34 Desarrollo del método científico. Esto es un esbozo de lo que eran las creencias antes del desarrollo del método científico. Una de las cuestiones que origina el desarrollo de la ciencia y del método científico es la explicación del movimiento de los objetos que se ven en el Cielo. Hoy día, producto de una enorme cantidad de observaciones, las cosas parecen estar claras. Sin embargo antes la información disponible era muy escasa. Excepto quizás por estimaciones sobre la Luna y el Sol, los hombres de antes no tenían idea de las distancias y de los tamaños de los objetos celestiales. No debería causar extrañeza entonces que los Griegos apoyaron la idea, con mucho sentido común, de que la tierra debería estar estacionaria (en reposo), y en base a esa hipótesis había que diseñar un método para predecir las posiciones de los astros. La versión final de este modelo fue diseñada por Ptolomeo de Alejandría, modelo que es conocido en nuestros tiempos como el modelo de Ptolomeo. 2.2. Modelos del Cosmos. 2.2.1. Modelo de Ptolomeo. Este era un intrincado modelo, donde la Tierra permanecía en reposo en su centro, mientras los otros objetos del Cielo se movían en torno a la Tierra, en círculos o combinaciones de movimientos circulares, la única curva perfecta para los griegos y por lo tanto la única posible. Todo esto estaba encerrado por una gigantesca esfera de cristal sobre la cual están las estrellas fijas, esfera que daría una vuelta completa por día. Así por ejemplo, un planeta describía un pequeño círculo en torno a un punto que a su vez describía un círculo mayor en torno a la Tierra, ver figura (2.1) Así se podía explicar satisfactoriamente para los datos disponibles en ese tiempo, como los planetas tenían velocidades variables incluso invirtiendo su movimiento. Entonces era posible hacer cálculos hacia el futuro o hacia el pasado, coincidiendo con las observaciones acumuladas durante cientos de años. Este modelo tuvo vigencia durante alrededor de 1400 años, un gran periodo de tiempo comparado con la rapidez de los cambios actuales. Esto no debe considerarse una aceptación ciega de una hipótesis. Ella descansaba en las comprobaciones experimentales de sus predicciones. De hecho fue necesario un refinamiento de las técnicas de observación para detectar fallas en el modelo de Ptolomeo. En este aspecto fue fundamental el trabajo obser- 2.2 Modelos del Cosmos. 35 Figura 2.1: Modelo de Ptolomeo. Figura 2.2: Tycho Brahe vacional realizado por Tycho Brahe, astrónomo danés (Dic. 14, 1546,— Oct. 24, 1601), cuyo trabajo en el desarrollo de instrumentos astronómicos y en las determinaciones de las posiciones de los astros fue crucial. Tycho Brahe fue el más grande de los observadores en astronomía antes de la invención del telescopio. Bajo el auspicio del rey de Dinamarca él construyó y operó el observatorio de Uraniborg, que constaba de innumerables instrumentos de su propio diseño. En particular, Brahe compiló extensos datos sobre la órbita de Marte, que más tarde probaría ser crucial para la formulación de las leyes correctas del movimiento de los planetas por parte de Kepler. Las críticas al modelo de Ptolomeo las inició Copérnico, quien basándose directamente en trabajos de Tycho Brahe puso de manifiesto las discrepancias del modelo con la observación, discrepancias no muy grandes pero que debían 36 Desarrollo del método científico. posición aparente de Marte en el fondo de las estrellas Tierra Marte Sol Figura 2.3: Movimiento aparente de Marte. ser justificadas. 2.2.2. Modelo de Copérnico. Debido a las diferencias observadas, cabían dos posibilidades, hacerle correcciones a las órbitas del modelo de Ptolomeo haciéndolas más intrincadas, o adoptar otro modelo. Copérnico propuso que la Tierra, y los planetas se movían en órbitas circulares en torno al Sol, explicando así muchos de los hechos observados con más simplicidad. Por ejemplo el aparente movimiento del Sol entre las estrellas se explica debido al movimiento de la Tierra. El movimiento aparente de los planetas, en particular el movimiento retrógrado, se explica con simplicidad como lo ilustra la figura (2.3). Por ejemplo se observa como el planeta Marte se ve avanzar o a veces retroceder en el fondo de las estrellas fijas. Sin embargo Copérnico encontró que las posiciones predichas con su modelo para los astros no eran significativamente mejores que las predichas por el modelo de Ptolomeo. 2.2.3. Mejores modelos. Aquí nos encontramos frente a dos hipótesis que daban cuenta más o menos igual de los hechos observados. Las creencias imperantes en aquellos días, sobre todo ideas religiosas, favorecían la hipótesis de una tierra en reposo, ocupando el lugar central en el Universo. Además la Mecánica Clásica no estaba lo suficientemente desarrollada como para contestar muchas preguntas. Entonces ocurrió que las mediciones por si solas no permitieron dilucidar entre los dos modelos, de Copérnico y de Ptolomeo. Tycho insistía en una 2.2 Modelos del Cosmos. 37 Tierra inmóvil. Copérnico persuadió a Tycho para colocar el centro de revolución de todos los otros planetas en el Sol. Para ello tenía que abandonar las esferas cristalinas Aristotélicas puesto que chocarían entre si. Tycho también cuestionó la doctrina Aristotélica de perfección celestial, cuando, en los años 1570, un cometa y una nueva estrella aparecieron. Tycho mostró que ambos estaban sobre la esfera de la Luna. Quizás las críticas más serias fueron las hechas por Galileo, después de su invención del telescopio En una rápida sucesión de acontecimientos, Galileo anunció que había montañas en la Luna, satélites que rodean Júpiter, y manchas en el Sol. Es más, que la Vía Láctea está compuesta de innumerables estrellas cuya existencia nadie había sospechado hasta que Galileo las observó. Aquí la crítica golpeaba las raíces mismas del sistema Aristotélico del mundo. Al mismo tiempo que Galileo investigaba los cielos con su telescopio, en Alemania Johannes Kepler estaba investigándolo con su mente. Las observaciones muy precisas de Tycho le permitieron a Kepler descubrir que Marte y los otros planetas, no se movían en círculos sino que describiendo elipses, con el Sol en uno de sus focos. El cosmos de Kepler era anti-Aristotélico, y quizás por ello él escribió sus descubrimientos en prosa latina casi indescifrable en una serie de trabajos que no tuvieron mucha circulación. 2.2.4. Johannes Kepler. El siguiente paso en la historia de la astronomía fue debido a la intuición teórica de Johannes Kepler (1571-1630), un astrónomo Alemán quien fue a Praga como asistente de Brahe. Kepler y Brahe no se llevaban bien. Al parecer Brahe pensaba que Kepler podría eclipsarlo de ser el más grande de los astrónomos de esos días, por lo cual sólo le permitió a Kepler examinar parte de su enorme caudal de datos observacionales. El le propuso a Kepler la tarea de entender la órbita de Marte que parecía muy complicada, con la esperanza de que gastara su tiempo en eso, permitiéndole a él trabajar en su teoría del sistema Solar. Como una ironía, fueron los datos de la órbita de Marte los que le permitieron a Kepler formular las leyes correctas del movimiento de los planetas, sobrepasando lejos los logros de Brahe. En retrospectiva la razón de que la órbita de Marte pareciera tan complicada fue que Copérnico colocaba el Sol en el centro del sistema solar, pues había errado en su creencia de que las órbitas de los planetas eran círculos. Kepler pudo finalmente concluir que las órbitas de los planetas no eran los 38 Desarrollo del método científico. Figura 2.4: Johanes Kepler círculos exigidos por Aristóteles, sino círculos aplanados, que los geómetras llaman elipses. Sin embargo las órbitas son apenas elípticas, y para los datos disponibles en ese tiempo, era precisamente la órbita de Marte quien mostraba ser más elíptica. 2.2.5. Las leyes de Kepler. Los descubrimientos de Kepler pueden resumirse en tres hechos, conocidos hoy en día como las tres leyes de Kepler: Cada planeta se mueve en una órbita elíptica en torno del Sol, el cual ocupa uno de sus focos. La línea que conecta el Sol con cada planeta, barre áreas iguales en intervalos iguales de tiempo. Los cuadrados de los tiempos requeridos por cada planeta para dar una vuelta completa en torno al Sol, son proporcionales al cubo de su distancia promedio al Sol. Lo que Galileo y Kepler no podían dar, aunque lo intentaron, eran respuestas a las preguntas Aristotélicas como las siguientes: ¿ Si la Tierra gira en torno de su eje, entonces por qué no salen volando los objetos? ¿Y qué hace que los objetos dejados caer de lo alto de las torres no se desvíen hacia el oeste dado que la tierra gira debajo de ellos? ¿Y cómo es posible que la Tierra, en espacio vacío, viaje en torno del Sol—ya sea en círculos o en 2.2 Modelos del Cosmos. 39 elipses—sin algo que la empuje? Las mejores respuestas vinieron de parte de Galileo, quién analizó los problemas de la rotación de la Tierra y su revolución mediante análisis lógico. Los cuerpos no salen volando la Tierra porque la tierra no gira demasiado rápido, así los cuerpos, tienen una tendencia pequeña a salir volando. Los cuerpos dejados caer desde las torres, caen a la base de ellas porque ellos (antes de ser soltados) comparten con la torre la rotación de la Tierra. Asimismo Galileo dedujo lo que acontece cuando otro movimiento se agrega. Así Galileo dedujo que una pelota dejada caer de la cima de un mástil de una nave en movimiento caería directamente a la base del mástil. Si la pelota fuera permitida a seguir sin roce en vuelo horizontal, continuaría moviéndose para siempre. De hecho Galileo concluyó que los planetas, una vez puestos en movimiento circular, continuarían así para siempre. Por consiguiente, las órbitas circulares de Copérnico existen. Galileo nunca aceptó las elipses de Kepler; hacerlo habría significado abandonar su solución al problema de Copérnico. Kepler comprendió que había un problema real con el movimiento planetario. Él buscó resolverlo mediante la existencia de alguna fuerza que parecía ser cósmica en naturaleza, en su creencia el magnetismo. La Tierra había sido descrita como un gigantesco imán por William Gilbert en 1600. Kepler se aferró a ese hecho. Una fuerza magnética, dijo Kepler, emanó del Sol y empujó los planetas alrededor en sus órbitas, pero él nunca pudo cuantificar esto idea bastante vaga y poco satisfactoria. A finales del primer cuarto del siglo 17 el pensamiento Aristotélico sobre el cosmos estaba rápidamente teniendo fin, pero no aparecía ningún sistema satisfactorio para ocupar su lugar. Como resultado existía escepticismo: “La nueva filosofía pone todo en duda”. Era esta situación la que favoreció el desarrollo de las ideas de René Descartes. La materia y movimiento fueron tomados por Descartes para explicar todos los procesos naturales por medio de los modelos mecánicos, aunque él advirtió que ese tales modelos probablemente no eran la naturaleza misma. Ellos proporcionan meramente “las historias probables”, cuestión qué parecía mejor que ninguna explicación en absoluto. Armado con materia y movimiento, Descartes atacó los problemas del sistema de Copérnico. Cuerpos una vez en movimiento, Descartes argumentó, permanecen en movimiento en una línea recta a menos que y hasta que ellos se desvíen de esta línea por el impacto de otro cuerpo. Todo cambio de un movimiento es el resultado de cosas que impactan. La pelota soltada desde lo alto de un mástil, cae al pie del mástil porque, a menos que sea golpeado 40 Desarrollo del método científico. Figura 2.5: Isaac Newton por otro cuerpo, continúa moviéndose con la nave. Los planetas se mueven alrededor del Sol porque ellos son desviados por una materia sutil que llena todo el espacio (¿qué será?). Podían así construirse modelos similares para considerar todos los fenómenos; el sistema Aristotélico podría ser reemplazado por el Cartesiano. Existía sin embargo un problema mayor, y eso bastó para derrumbar al Cartesianismo en esos tiempos. La materia Cartesiana y movimiento no tenían ningún propósito. Ni la filosofía de Descartes parecía necesitar la participación activa de una deidad. El cosmos Cartesiano, como lo dijo Voltaire después, era como un reloj que al cual le habían dado cuerda en la creación y que continuaba haciendo tictac por siempre. 2.2.6. Sir Isaac Newton. La unificación de la Física y la Astronomía. El 17 siglo era un tiempo de intenso sentimiento religioso, y en ninguna parte era ese sentimiento más intenso que en Gran Bretaña. Allí un hombre joven devoto, Isaac Newton, finalmente sienta las bases de la Mecánica Clásica. Newton era a la vez un experimentalista y un genio matemático, una combinación que le permitió defender el sistema de Copérnico mediante “unas nuevas mecánicas”. Su método era simplemente: “de los fenómenos de los movimientos investigar las fuerzas naturales, y entonces de estas fuerzas deducir otros fenómenos del movimiento”. El genio de Newton lo guió en la elección de fenómenos a ser investigado, y su creación de una herramienta matemática 2.2 Modelos del Cosmos. 41 fundamental—el cálculo (simultáneamente inventado por Gottfried Leibniz). El resultado fué su gigantesca obra, Philosophiae Naturalis Principia Mathematica (Principios Matemáticos de Filosofía Natural, normalmente llamados Principia simplemente que aparecieron en 1687. Aquí se asentaban unas nuevas físicas que aplicaron igualmente bien a los cuerpos terrestres y a los celestiales. Copérnico, Kepler, y Galileo eran todos justificados por el análisis de Newton de las fuerzas. Descartes fué absolutamente derrotado. Así con sus tres leyes (de Newton) de movimiento y su principio de gravitación universal le bastó a Newton para explicar el nuevo cosmos. Newton creyó sin embargo que eso era con la ayuda de Dios. La Gravedad, es acción divina directa, como lo son todo las fuerzas. El espacio absoluto, para Newton, era esencial, porque el espacio era el “el sensorium de Dios”, y la morada divina la cual, necesariamente, debe ser el último sistema de coordenadas. (Estas ideas muestran con claridad que Newton formuló sus leyes de la Mecánica en un sistema privilegiado de referencia, sistemas que hoy en día se conocen como “Sistemas inerciales de Referencia”.) Finalmente, el análisis de Newton de las perturbaciones mutuas de los planetas causado por sus campos gravitacionales individuales lo hicieron predecir el derrumbamiento natural del sistema solar, a menos que Dios actuara para corregir las cosas. La gran síntesis de Newton. Kepler propuso sus tres leyes del movimiento de los planetas basándose en las regularidades que encontró en los datos de Brahe. Estas leyes se suponía aplicaban sólo al movimiento de los planetas, no teniendo relación alguna con otros movimientos en el Universo. Además eran completamente empíricas, ellas daban buenos resultados, pero nadie sabía la razón de porqué ellas funcionaban. Newton cambió todo eso. Primero él demostró que los movimientos de todos los cuerpos podían ser descritos mediante tres leyes. Luego demostró que las tres leyes de Kepler no eran más que casos especiales de sus leyes si la fuerza es de un tipo especial, la que hoy llamamos fuerza gravitacional. 42 2.3. Desarrollo del método científico. La difusión de método científico. La publicación del Principia marca la culminación del movimiento iniciado por Copérnico y, como tal, siempre ha perdurado como el símbolo de la revolución científica. Existían, sin embargo, críticas similares en otros ámbitos del conocimiento natural. En el mismo año que Newton publicaba su gran volumen, aparecía un libro igualmente importante en anatomía. Andreas Vesalius “Del fabrica de corporis de humani ” (“En el Tejido del Cuerpo Humano”, llamó el Del fabrica), aparece un examen crítico de la anatomía de Galeno en la que Vesalius utilizó sus propios estudios para corregir muchos de los errores de Galeno. Vesalius, como Newton, puso énfasis en los fenómenos observados, es decir, la descripción exacta de hechos naturales. Esto culminó con el descubrimiento de la circulación de la sangre por William Harvey cuyo trabajo fué publicado como “Exercitatio Anatomica De Motu el et de Cordis Sanguinis en Animalibus” (Un Ejercicio Anatómico Acerca del Movimiento del Corazón y Sangre en Animales ) . Éste era el como el Principia en fisiología donde se estableció la anatomía y la fisiología como ciencias con derecho propio. Harvey mostró que esos fenómenos orgánicos podrían estudiarse experimentalmente y que algunos procesos orgánicos podían reducirse a sistemas mecánicos. El corazón y el sistema vascular podrían ser considerados como una bomba y un sistema de cañerías y que podían entenderse sin el recurso a espíritus o otras fuerzas no susceptibles al análisis. En otras ciencias el esfuerzo por sistematizar no tuvo tanto éxito. En química, por ejemplo, el trabajo de los alquimistas modernos medievales habían conducido a nuevas substancias importantes y procesos, como los ácidos minerales y destilación, pero presentaron sus teorías en un lenguaje místico casi incomprensible. Robert Boyle en Inglaterra intentó disipar la maleza intelectual insistiendo en las descripciones claras, en la reproducibilidad de los experimentos, y concepciones mecánicas de los procesos químicos. La química, sin embargo, no estaba todavía madura para la revolución. Nuevos instrumentos como el microscopio y el telescopio multiplicaron los mundos con los que el hombre tenía que ver. Los viajes por el Mundo devolvieron un diluvio de nuevos especímenes botánicos y zoológicos que agobiaron esquemas clasificadores antiguos. Lo mejor que podía hacerse era describir estas cosas nuevas con precisión y esperar que algún día alguien 2.3 La difusión de método científico. 43 pudiera ajustarlas de una manera coherente. El diluvio creciente de información puso tensiones pesadas en las instituciones viejas y tradicionales. La información tuvo que ser extendida amplia y rápidamente. Ni el genio aislado de Newton pudo comprender un mundo en el que la nueva información estaba produciéndose más rápidamente de lo que cualquier persona podía asimilar. Los filósofos naturales tenían que estar seguro de sus datos, y con ese fue requirieron la confirmación independiente y crítica de sus descubrimientos. Se crearon nuevos medios para lograr estos fines. Las sociedades científicas empiezan en Italia en los primeros años del siglo 17 y culminan en las dos grandes sociedades científicas nacionales que marcan el cenit de la revolución científica: la Sociedad Real de Londres para la Promoción de Conocimiento Natural, creado por carta constitucional real en 1662, y las Académie des Ciencias de París, formadas en 1666. En estas sociedades y otras como ellas por el mundo, los filósofos naturales podrían discutir, y podrían criticar nuevos descubrimientos y las teorías antiguas. Para mantener una base firme en estas discusiones, las sociedades empezaron a publicar trabajos científicos (papers). Las Transacciones Filosóficas de la Sociedad Real que empezaron como una aventura privada de su secretaria fueron el primer periódico científico profesional. Fue copiado pronto por el Mémoires de la academia francesa que ganó igual importancia y prestigio. La antigua práctica de ocultar los nuevos descubrimientos en jerga común, el idioma oscuro, o incluso los anagramas gradualmente dieron lugar al ideal de comprensión universal. Se inventaron nuevos cánones para informar y para que los experimentos y descubrimientos pudieran ser reproducidos por otros. Esto requirió nueva precisión en el idioma o lenguaje para compartir métodos experimentales u observacionales. El fracaso de otros para reproducir resultados lanzaba serias dudas en los informes originales. Así se crearon las herramientas para un ataque frontal a los secretos de naturaleza. Incluso con la revolución científica comenzando, mucho permanecía por ser hecho. De nuevo, fué Newton quien mostró la manera. El Principia bastaba para el mundo de macroscópico. Las tres leyes de Newton de movimiento y el principio de gravitación universal eran todo lo necesario para analizar las relaciones mecánicas de cuerpos ordinarios, y el cálculo como la herramientas matemática esencial. Para el mundo microscópico, Newton proporcionó dos métodos. Primero, donde las leyes simples de acción ya habían sido determinadas de la observación, como la relación de volumen y presión de un gas (la ley de Boyle, pv = k), Newton supuso fuerzas entre partículas que le permitieron 44 Desarrollo del método científico. derivar esa ley. Él usó estas fuerzas entonces para predecir otros fenómenos, en este caso la velocidad del sonido en el aire la cual podía medirse y contrastarse con la predicción. Segundo, el método de Newton hizo posible el descubrimiento de que las leyes de acción del mundo macroscópico. podrían considerarse como el efecto de fuerzas microscópicas. Aquí el trabajo terminal de Newton no está en el Principia sino en su obra maestra de físicas experimentales, el Opticks, publicado en 1704 en los que él mostró cómo examinar un asunto experimentalmente y descubrir las leyes del fenómeno. Newton mostró como el uso juicioso de una hipótesis puede llevar más allá la investigación experimental hasta que una teoría coherente fuese lograda. El Opticks fué el modelo en los siglos 18 y comienzos del 19 para la investigación del calor, la electricidad, el magnetismo, y los fenómenos químicos. 2.3.1. La edad clásica de la Ciencia. Como consecuencia de que el Principia precedió al Opticks, la mecánica tuvo más desarrollo que otras ciencias en el siglo 18, que en este proceso se transformó de una rama de la física en una rama de la matemáticas. Se redujeron muchos problemas de la física en problemas matemáticos, que mostraron su ductibilidad de ser resueltos por métodos analíticos cada vez más sofisticados. El matemático suizo Leonhard Euler fué uno de los obreros más fecundos y prolíficos en matemática y en la física matemática. Su desarrollo del cálculo de variaciones, una herramienta muy poderosa, le permitió tratar problemas muy complejos. En Francia, Jean Le de Rond Alembert y Joseph-Louis Lagrange tuvieron éxito en reducir los problemas de la mecánica a un sistema axiomático que requiere sólo manipulación matemática. La base de la Mecánica de Newton era su congruencia con la realidad física. Al principio del 18 siglo ella se expuso a muchas pruebas rigurosas. El toque final al edificio de Newton fué proporcionado por Pierre-Simon, marqués de Laplace cuyo “Traité hábil del céleste del mécanique” (17981827; las Mecánicas Celestiales) sistematizó todo lo que se había hecho en mecánicas celestiales bajo la inspiración de Newton. Laplace fué más allá de Newton, en sus creencias, mostrando que las perturbaciones de las órbitas planetarias causadas por las interacciones de gravitación planetaria son de hecho periódicas y que el sistema solar es, por 2.4 El método científico. 45 consiguiente, estable, no requiriendo ninguna intervención divina para evitar su colapso. Esta afirmación puede sin embargo ser discutida hoy en día donde con el desarrollo de la teoría de los sistemas dinámicos donde se han abierto nuevas dudas en el asunto de la estabilidad del sistema Solar. 2.4. El método científico. En términos modernos, el método científico puede resumirse en un proceso de que consta de los siguientes pasos o etapas 1 Observe aspectos del Universo que sean de su interés como investigador. 2 Invente alguna descripción tentativa de los hechos observados, cuestión llamada una hipótesis, que sea consistente con todo lo que usted ha observado. 3 Utilice la hipótesis para efectuar predicciones de fenómenos en el ámbito de los fenómenos descritos. 4 Contraste esas predicciones mediante nuevos experimentos o mediante nuevas observaciones, y redefina su hipótesis a la luz de los nuevos resultados. 5 Repita los pasos 3 y 4 hasta que no existan discrepancias entre su teoría o hipótesis y los experimentos u observaciones. Cuando se logre consistencia entre la hipótesis y los resultados, la hipótesis adquiere el rango de teoría científica la cual provee un conjunto coherente de proposiciones que explican una cierta clase de fenómeno. Una teoría es entonces un artefacto mediante el cual se explican observaciones y se pueden hacer predicciones. Una gran ventaja del método científico está en la ausencia de prejuicios. Un investigador no tiene necesariamente que creer a otros. Los experimentos pueden ser repetidos y así determinar si los resultados son verdaderos o falsos, independientemente de creencias religiosas o de prejuicios existentes. Una teoría científica es adoptada o descartada sin consideración al prestigio del proponente o a su poder de persuasión. Al estudiar el cosmos, no es posible realizar experimentos directamente, toda la información se obtiene mediante la observación. 46 Desarrollo del método científico. Una crítica frecuente que se hace a los científicos y en consecuencia al método científico es que muchas cosas que se creían imposibles en el pasado son hoy en día realidades. Esta crítica está basada en una mala interpretación del método científico. Cuando una hipótesis pasa el test de su comprobación experimental, entonces ella se adopta como la teoría que explica correctamente los fenómenos observados. Sin embargo, cuando se explora un nuevo rango de fenómenos se utiliza la teoría existente pero se tiene siempre en mente que la teoría puede fallar al intentar explicar nuevos fenómenos. En estos casos, nuevas hipótesis son hechas hasta que emerge una nueva teoría. 2.5. Los cambios actuales. Hoy día, los cambios y nuevos descubrimientos suceden a un ritmo impresionante, tópicos que corresponden a temas de estudio de actualidad se estudian normalmente en cursos de postgrado en Física, pero de todos modos se muestran algunos de los hitos más relevantes ocurridos recientemente en la Física. 2.5.1. Hitos en la historia de la Física Moderna 1887 Albert Michelson y Edward Morley, usando un interferómetro, fallan en detectar el Eter. 1896 Henri Becquerel descubre la radioactividad natural. 1900 Max Planck introduce la teoría cuántica para explicar la radiación termal. 1905 Albert Einstein publica su famoso artículo sobre la teoría de la relatividad. 1905 Albert Einstein introduce el concepto de fotón para explicar el efecto fotoeléctrico. 1911 Heike Kamerlingh-Onnes descubre la superconductividad. 1911 Ernest Rutherford propone el núcleo atómico, basado en experimentos de Hans Geiger y Ernest Marsden. 1913 Neils Bohr introduce la teoría de la estructura atómica. 2.5 Los cambios actuales. 47 1913 William H. Bragg and William L. Bragg (Padre e Hijo) estudian la difracción de rayos X por cristales. 1914 James Franck and Gustav Hertz muestran evidencia de energías cuantizadas en los átomos. 1914 Henry J. Moseley encuentran relación entre frecuencias de rayos X y número atómico. 1915 Albert Einstein propone la teoría general de la relatividad. 1916 Robert Millikan ejecuta cuidadosas medidas del efecto fotoeléctrico y confirma la teoría de los fotones de Einstein. 1919 Sir Arthur Eddington y otro astrónomo Británico miden efectos gravitacionales sobre la deflección de luz de las estrellas confirmando las predicciones de la teoría general de la relatividad de Einstein. 1921 Otto Stern y Walter Gerlach demuestran la cuantización espacial y muestran la necesidad de introducir el momento magnético intrínseco del electrón. 1923 Arthur Compton demuestran cambios en la longitud de onda de los rayos X en el scattering por electrones. 1924 Prince Louis de Broglie postula la conducta ondulatoria de las partículas. 1925 Wolfgang Pauli propone el principio de exclusión. 1925 Samuel Goudsmita y George Uhlenbeck introducen el concepto de momento angular intrínseco. 1926 Max Born establece la interpretación estadística de la función de onda de Schrödinger. 1927 Werner Heisenberg introduce el principio de incerteza. 1927 Clinton Davisson t Lester Germer demuestran la conducta ondulatoria de los electrones; George P. Thomson independientemente hace lo mismo. 48 Desarrollo del método científico. 1928 Paul A.M. Dirac propone la teoría relativística cuántica. 1929 Edwin Hubble reporta evidencia de la expansión del Universo. 1931 Carl Anderson descubre la antipartícula del electrón, el positrón. 1931 Wolfgang Pauli sugiere la existencia de una partícula neutra, el neutrino, emitido en el decaimiento beta. 1932 James Chadwick descubre el neutrón. 1932 John Cockroft y Ernest walton producen la primera reacción nuclear usando un acelerador de alto voltaje. 1934 Irène y Frédéric Joliot-Curie descubren radioactividad inducida artificialmente. 1935 Hideki Yukawa propone la existencia de los mesones. 1938 Otto Hahn, Fritz Strassmann, Lise Meitner y Otto Frisch descubren la fisión nuclear. 1940 Edwin McMillan, Glenn Seaborg y colegas producen los primeros elementos sintéticos transuránicos. 1942 Enrico Fermi y colegas construyen el primer reactor de fisión nuclear. 1945 Explosión de la primera bomba atómica de fisión en el desierto de Nuevo México. 1946 George Gamow proponen el big-bang cosmológico. 1948 John Bardeen, Walter Brattain y William Shockley muestran primer transistor. 1952 Explosión de la primera bomba de fusión nuclear en el atolón Eniwetok. 1956 Frederick Reines y Clyde Cowan presentan evidencia experimental sobre la existencia del neutrino. 2.5 Los cambios actuales. 49 1956 Lee Tsung-dao y Yang Chen-ying sugieren pérdida de simetría de paridad en el decaimiento beta. 1958 Rudolf L. Mössbauer demuestra emisión sin retroceso de rayos gama. 1960 Theodore Maiman construye el primer láser de ruby; Ali Javan construye el primer láser de helio-neón. 1964 Allan R. Sandage descubre el primer quasar. 1964 Murray Gell-Mann y George Zweig independientemente introducen el modelo de tres quarqs de las partículas elementales. 1965 Arno Penzias y Robert Wilson descubren la radiación de fondo de micro ondas. 1967 Jocelyn Bell y Anthony Hewish descubren el primer pulsar. 1967 Steven Weinberg y Abdus Salam proponen independientemente una teoría unificada incluyendo las interacciones débiles y electromagnéticas. 1974 Burton Richter y Samuel Ting y colaboradores descubren independientemente evidencia de un cuarto quarq, llamado charm. 1974 Joseph Taylor y Russel Hulse descubren el primer pulsar binario. 1977 Leon Lederman y colegas descubren una nueva partícula que es evidencia de un quinto quarq, llamado bottom. 1981 Gerd Binnig y Heinrich Rohrer inventan el microscopio de efecto túnel. 1983 Carlo Rubbia y colaboradores en el CERN descubren las partículas W −, W + y Z0. 1986 J. Georg Bednorz y Karl Alex Müller producen el primer superconductor de alta temperatura. 1994 Investigators en el Fermilab descubren evidencia de un sexto quarq, llamado top. . 50 Desarrollo del método científico. Capítulo 3 Gravitación. 3.1. Desarrollo de la teoría gravitacional. Hasta los hallazgos de Newton, no se comprendió que el movimiento de los cuerpos celestiales y la caída libre de objetos en la Tierra eran determinados por la misma fuerza. Los filósofos griegos clásicos, por ejemplo, no creían que los cuerpos celestiales podían ser afectados de algún modo, puesto que ellos parecían perpetuamente seguir trayectorias sin caerse del cielo. Por esa misma razón, Aristóteles pensaba que cada cuerpo celeste sigue un camino “natural” en su movimiento. Asimismo creía que los objetos materiales terrenales poseen una tendencia natural a acercarse al centro de la Tierra. Las ideas Aristotélicas prevalecieron durante siglos: un cuerpo que se mueve a velocidad constante requiere de una fuerza continua que actuando sobre el, y esa fuerza debe ser aplicada por contacto en lugar de la interacción a distancia. Ese punto de vista impidió la comprensión de los principios del movimiento y evitaron el desarrollo de ideas sobre la gravitación universal. Sin embargo durante el siglo 16 y comienzos del siglo 17, varias contribuciones científicas al problema del movimiento terrenal y celestial permitieron el desarrollo de la teoría gravitacional. de Newton y de la Mecánica Clásica. El astrónomo alemán Johannes Kepler, durante el siglo 17, aceptó la perspectiva de Copérnico de que los planetas orbitan en torno del Sol en vez de en torno de la Tierra. Utilizando las mediciones muy refinadas de los movimientos de los planetas realizadas por el astrónomo dinamarqués Tycho Brahe durante el siglo 16, 52 Gravitación. Kepler pudo describir las órbitas de los planetas mediante simples relaciones geométricas y aritméticas. Estas relaciones son conocidas hoy como las tres leyes de Kepler del movimiento de los planetas y pueden resumirse por: Tres leyes de Kepler 1 Los planetas describen órbitas elípticas en la cual el Sol el cual ocupa uno de sus focos. 2 La línea que une un planeta al Sol barre áreas iguales en tiempos iguales. 3 El cuadrado del periodo de revolución de un planeta es proporcional al cubo de su distancia media al Sol. Una expresión moderna de esta ley es 4π 2 3 2 T = R, GM siendo G la constante de gravitación Universal, M la masa del Sol, y R la distancia media al Sol. Durante este mismo periodo de tiempo, el astrónomo y físico italiano Galileo hizo otros importantes avances al entender como “natural” un movimiento acelerado simple para los objetos terrenales. Él comprendió que los cuerpos que no son influenciados por medio de fuerzas, continúan moviendo indefinidamente, y que al contrario del pensamiento Aristotélico, se necesitan fuerzas para cambiar su estado de movimiento. Estudiando cómo los objetos caen hacia la Tierra en el experimento conocido como de caída libre, Galileo descubrió que este movimiento es un movimiento con aceleración constante, esto es la velocidad se incrementa lo mismo en iguales lapsos de tiempo. Él pudo demostrar que la distancia que recorre un cuerpo al caer, varía como el cuadrado del tiempo. Además fue capaz de establecer que la aceleración debido a la gravedad cerca de la superficie de la Tierra es aproximadamente 9.8 metros por segundo por segundo. Esto es que la velocidad se incrementa en 9.8 m/s en cada segundo. Por otro lado, Newton descubrió una sorprendente relación entre el movimiento de la Luna (¿influenciada por la Tierra?) y el movimiento de cualquier cuerpo que cae sobre la Tierra. Primero que nada, mediante métodos puramente matemáticos y geométricos, el descubrió que un cuerpo que recorre 3.1 Desarrollo de la teoría gravitacional. 53 una órbita circular de radio R en un tiempo ( período) T , está acelerado hacia el centro de la circunferencia con una magnitud igual a: a= 4π 2 R. T2 Newton supuso la presencia de una fuerza atractiva entre todos los cuerpos materiales, una fuerza que no requiere contacto directo y actúa a distancia. Haciendo uso de la ley de inercia es decir que los cuerpos no sometidos a fuerzas siguen con velocidad constante en una línea recta, Newton concluyó que una fuerza ejercida por la Tierra sobre la Luna es necesaria para que su movimiento sea circular en torno a la Tierra. Él comprendió que esta fuerza debería ser, considerando las proporciones, igual que la fuerza con la que la Tierra atrae a objetos sobre su superficie. Newton analizó el movimiento de la Luna de la que tiene un periodo de T = 27,3 días (casi un mes) y una órbita de radio aproximadamente igual a RL = 384, 000 kilómetros (aproximadamente 60 radios de la Tierra RT ). Él encontró que la aceleración de la Luna en su órbita es (dirigida hacia la Tierra) de magnitud a= 4π 2 RL 4π 2 3,84 × 108 m = = 0,0027 2 , 2 2 T (27,3 × 24 × 3600) s que sorprendentemente resulta igual a (RT /RL )2 = (1/60)2 de la aceleración de un objeto cayendo cerca de la superficie de la Tierra. Cuando Newton descubrió que la aceleración de la Luna en su órbita es 1/3600 veces más pequeña que la aceleración en la superficie de la Tierra, él tuvo la genial idea de relacionar el número 3600 al cuadrado del radio de la Tierra. Como Newton supuso que las dos aceleraciones son consecuencia de una interacción común, entonces pudo deducir que la fuerza gravitatoria entre dos cuerpos disminuye como el inverso del cuadrado de la distancia entre los cuerpos. Así, si la distancia entre los cuerpos se dobla, se reduce la fuerza en ellos en cuatro veces. Un resultado que requiere suponer que la masa de la Tierra actúa gravitacionalmente en sus alrededores como que si su masa se concentrara en el centro del planeta. 54 3.1.1. Gravitación. Ley inversa al cuadrado de la distancia. Es también posible deducir la ley inversa al cuadrado de la distancia, de acuerdo a la tercera ley de Kepler. En efecto si en la expresión a= 4π 2 R , T2 se reemplaza el periodo de acuerdo a la tercera ley de Kepler T 2 = kR3 se obtiene 4π 2 4π 2 R = . kR3 kR2 Newton también dedujo que las fuerzas gravitacionales entre los cuerpos deberían depender de las masas de los cuerpos. Dado que un cuerpo de masa M que experimenta una fuerza F acelera a razón F/M, una fuerza proporcional a M sería consistente con la observaciones de Galileo de que los cuerpos aceleran bajo la gravedad terrestre con la misma magnitud. Así y en forma resumida la teoría gravitacional de Newton establece que a= F12 = G m1 m2 , (r12 )2 donde F12 es la magnitud de la fuerza gravitatoria que actúa entre las los cuerpos de masas m1 y m2 separadas una distancia r12 . “La fuerza iguala el producto de estas masas y de G, una constante universal, dividida por el cuadrado de la distancia”. Su teoría gravitatoria permitió explicar las leyes de Kepler y estableció la ciencia cuantitativa moderna de la gravitación. La constante de gravitación universal tiene en el sistema SI el valor G = 6,67259 × 10−11 m3 kg−1 s−2 , y la fuerza gravitacional actúa en la dirección de la línea que une los dos cuerpos. Una expresión más simple, permite calcular la aceleración en la superficie en Tierra, la llamada aceleración de gravedad. Sea MT la masa de la tierra y RT su radio, la aceleración descendente de un cuerpo en la superficie es g= GMT . RT2 3.1 Desarrollo de la teoría gravitacional. 55 De aquí puede deducirse una expresión aproximada para la aceleración de gravedad a una altura h sobre la superficie terrestre. GMT (RT + h)2 ¶ µ MT MT = G 2 + −2G 3 h RT RT g(0) = g(0) − 2 h. RT g(h) = 3.1.2. (3.1) Velocidad de escape. Un objeto lanzado hacia arriba desde la superficie de un planeta, despreciando el efecto del roce con la atmósfera, no regresa de caída si la velocidad excede el valor denominado velocidad de escape que puede ser determinado mediante r 2GM ve = , R siendo M la masa del planeta, R su radio y G la constante de gravitación. 3.1.3. Peso y masa. El peso W del cuerpo es definido por la fuerza igual y opuesta necesario para prevenir la aceleración descendente del cuerpo. El mismo cuerpo puesto en la superficie de la Luna tiene la misma masa, pero, como la Luna tiene una masa de aproximadamente 1/81 veces el de la Tierra y un radio de aproximadamente 0,27 el de la Tierra, el cuerpo en la superficie lunar tiene un peso de sólo 1/6 su peso de Tierra. Newton pudo mostrar que las tres leyes de Kepler, se desprenden matemáticamente del uso de sus propias leyes de movimiento y de la de gravitación. En todas las observaciones del movimiento de un cuerpo celestial, sólo el producto de G y la masa M aparece. Newton estimó la magnitud de G suponiendo la densidad de masa de promedio de la Tierra como 5,5 veces la de agua y luego calculando la masa de la Tierra MT . Así calculó G mediante G= gRT2 MT 56 Gravitación. obteniendo un valor cercano a 6,6726 × 10−11 . Usando las observaciones del movimiento de las lunas de Júpiter descubiertas por Galileo, Newton determinó que Júpiter es 318 veces más masivo que la Tierra pero tiene sólo 1/4 de su densidad y un radio 11 veces más grande que la Tierra. 3.1.4. Interacción entre los cuerpos celestiales. Cuando dos cuerpos celestiales de masa comparable se atraen gravitacionalmente, ambos orbitan con respecto al centro de masa de los dos cuerpos. Ese punto queda entre los cuerpos en la línea que los une en una posición tal que las distancias a cada cuerpo multiplicadas por la masa de cada cuerpo son iguales. En fórmulas M2 R, M1 + M2 M2 = R, M1 + M2 = M2 R2 . R1 = R1 M1 R1 Así, la Tierra y el Sol están orbitando en torno a su centro común de masa. Este movimiento de la Tierra tiene dos consecuencias notables. Primero, la posición del Sol vista contra el fondo de las estrellas muy distantes varía cada mes por aproximadamente 12 segundos de arco además del movimiento anual del Sol. Segundo, la velocidad de la línea de visión desde la Tierra a un nave espacial en movimiento libre varía cada mes a en 2.04 metros por segundo según datos muy exactos obtenidos por medio de técnicas modernas. Con leves modificaciones las leyes de Kepler son válidas para los sistemas de dos cuerpos de masas establecido estando el foco de las órbitas elípticas en la posición del centro de masa de los dos cuerpos, y resultando para la tercera ley de Kepler G(M1 + M2 ) 2 R3 = T 4π 2 Esta fórmula puede usarse para determinar las masas separadas de estrellas binarias. La fórmula anterior determina la suma de las masas y si R1 y R2 son las distancias de las estrellas individuales del centro de masa, la proporción de las distancias debe equilibrar la proporción inversa de las masas, y la suma de las distancias es la distancia total R. Estas relaciones 3.1 Desarrollo de la teoría gravitacional. 57 son suficientes para determinar las masas individuales. Las observaciones del movimiento orbital de las estrellas dobles, del movimiento dinámico de estrellas que mueven colectivamente dentro de sus galaxias, y del movimiento de las galaxias, verifican que la ley de Newton de gravitación es válida, con un alto grado de exactitud a lo largo y ancho del universo visible. Newton también explicó las mareas del océano, fenómenos que envolvieron en misterio a los pensadores durante siglos, que son una simple consecuencia de la ley universal de gravitación. Ellas son causados específicamente por el tirón gravitatorio de la Luna y, en menor grado, del Sol sobre las aguas. Ya era conocido en tiempos de Newton que la Luna no tiene una órbita Kepleriana simple. Otras observaciones más exactas sobre los planetas también mostraron diferencias con las leyes de Kepler. El movimiento de la Luna es particularmente complejo. Además, la atracción gravitatoria de los planetas explica casi todos los rasgos de sus movimientos. Las excepciones son no obstante importantes. Urano, el séptimo planeta del Sol, manifestó importantes variaciones en su movimiento que no podían ser explicado a través de perturbaciones de Saturno, Júpiter, y de los otros planetas. Dos astrónomos del siglo 19, John Couch Adams de Bretaña y Urbain-Jean-Joseph Le Verrier de Francia, supusieron independientemente la presencia de un octavo planeta inadvertido que podría producir las diferencias observadas. Ellos calcularon su posición dentro de una precisión de un grado de donde se descubrió Neptuno más tarde en 1846. Las medidas hechas por mucho tiempo del movimiento del planeta más cercano al Sol, Mercurio, llevaron a los astrónomos a concluir que el eje mayor de su órbita elíptica precesa en el espacio a una proporción 43 segundos de arco por siglo, más rápido que lo que podría considerarse debido a perturbaciones de los otros planetas. En este caso, sin embargo, ningún otro cuerpo podría encontrarse que podría producir esta diferencia. Al parecer una modificación muy leve de la ley de Newton de la gravitación parecía ser necesaria. La teoría de Einstein de la relatividad general, predice correctamente la precesión de la de la órbita de Mercurio. 3.1.5. Teoría potencial. (Usted puede omitir esto) Para cuerpos irregulares o con distribuciones de masa no homogéneas, la formulación original de la ley de Gravitación es poco adecuada, aunque en principio ella puede ser utilizada para encontrar el campo gravitatorio resultante. 58 Gravitación. El progreso principal en teoría gravitatoria clásica después de Newton fin la introducción de una teoría potencial que es una representación matemática de los campos gravitatorios. Esto permite la investigación teórica de las variaciones gravitatorias en espacio y de las anomalías debido a las irregularidades y deformaciones de la forma de la Tierra. La teoría potencial tiene la siguiente elegante formulación. En cualquier punto del espacio r existe un potencial gravitacional, cuyo valor corresponde una función escalar φ(r) llamada potencial gravitacional, de la cual se obtiene el campo gravitacional g(r) mediante una generalización del concepto de derivada µ ¶ ∂ ∂ ∂ g(r) = − ı̂ + ̂ + k̂ φ(r) ∂x ∂y ∂z donde ı̂, ̂, y k̂ representan los vectores unitarios básicos de un sistema de coordenadas Cartesiano tridimensional. El potencial φ(r) y por consiguiente g son determinados por una ecuación descubierta por el matemático francés Siméon-Denis Poisson: ¶ µ 2 ∂2 ∂2 ∂ φ(r) = 4πGρ(r). + + ∂x2 ∂y 2 ∂z 2 La importancia de esta formulación es que la ecuación de Poisson puede resolverse bajo condiciones bastante generales que no son el caso con la ecuación de Newton. Cuando la densidad de masa ρ(r) no es cero, la solución se expresa como un integral definida Z ρ(r0 )dV 0 φ(r) = G . |r − r0 | Cuando ρ(r) = 0, en particular, fuera de la Tierra, la ecuación de Poisson se reduce a la ecuación más simple de Laplace. Las coordenadas apropiadas para una región vecina a la Tierra casi esférica son coordenadas polares esféricas: r, la distancia al centro de la Tierra, la latitud medidas desde el polo Norte y la longitud medida desde el meridiano de Greenwich. Las soluciones son serie de potencias de funciones trigonométricas de la latitud y longitud, conocidas como armónicos esférico donde los primeros términos son: µ ¶2 µ ¶3 GMT 3 cos2 θ − 1 5 cos3 θ − cos θ RT RT φ(r) = − J3 ), (1 − J2 RT r 2 r 2 3.1 Desarrollo de la teoría gravitacional. 59 siendo constantes J2 y J3 determinables la distribución de masa detallada de la Tierra, y de acuerdo a observaciones de las perturbaciones en las órbitas de la Luna, se ha encontrado para la Tierra J2 = 1, 082,7 × 10−6 y J3 = −2,4 × 10−6 . Gran parte de la variación del potencial con respecto a una tierra esférica es causada por una protuberancia ecuatorial, y hay un aumento correspondiente en el valor de la gravedad en la superficie de la Tierra del Ecuador a los polos. Newton fue el primero en formular una teoría de la protuberancia ecuatorial. Muchos más términos se han estimado de las observaciones de las órbitas de satélites artificiales cerca de Tierra. Nota 3.1 Es absolutamente posible que usted encuentre que aquí hay demasiadas matemáticas, cierto. De todos modos por si usted quiere profundizar aquí han aparecido dos objetos, llamados “operadores” que son de frecuente ocurrencia en Física. Se trata de ∇ = ı̂ ∇2 = ∂ ∂ ∂ + ̂ + k̂ operador Nabla, ∂x ∂y ∂z ∂2 ∂2 ∂2 + + operador Laplaciano, ∂x2 ∂y 2 ∂z 2 de modo que en términos de estos, dos de las ecuaciones anteriores se escriben como g(r) = −∇φ(r), ∇2 φ(r) = 4πGρ(r). 3.1.6. Medidas absolutas de la gravedad. Hay dos maneras básicas de determinación de la gravedad: cronometrando el caída libre de un objeto y cronometrando el periodo del movimiento de un péndulo bajo la gravedad , el cual para oscilaciones pequeñas está dado por s L . T = 2π g En 1817 el físico inglés Henry Kater construye y fin el primero en usar un péndulo reversible para hacer medidas absolutas de g.(Péndulo de Kater) El péndulo reversible se usó para las medidas absolutas de gravedad desde los tiempos de Kater hasta los años cincuenta. Los instrumentos electrónicos 60 Gravitación. les han permitido a los investigadores medir con mucha precisión el tiempo de caída libre. También es posible hacer medidas sumamente exactas que usan interferencia láser. Por consiguiente, las medidas directas de caída libre han reemplazado el péndulo para las medidas absolutas de gravedad. Hoy día los lasers sirven como fuentes luminosas para los interferómetros. El objeto que cae refleja un haz de luz láser. Se han usado versiones transportables de tal aparato para medir diferencias de gravedad en toda Tierra. La exactitud alcanzable en estas medidas es aproximadamente una parte en 108 . 3.1.7. Medidas relativas de la gravedad. Desde los tiempos de Newton, las mediciones de diferencias de gravedad, estrictamente hablando, las proporciones de valores de gravedad, fueron hechas cronometrando el mismo péndulo en lugares diferentes. Durante los años treinta, sin embargo, los gravímetros estáticos reemplazaron a los péndulos para las medidas locales de variaciones pequeñas de la gravedad. Hoy día los experimentos de caída libre han dejado el péndulo obsoleto para estos propósitos. Los gravímetros estáticos equilibran la fuerza de peso (mg) de gravedad en una masa por medio de una fuerza elástica, usando dispositivos electrónicos para lograr alta sensibilidad. Otro gravímetro de desarrollo reciente desarrollo es el gravímetro de superconductor, un instrumento en que la posición de una esfera magnéticamente levitada proporciona una medida de g. Los gravímetros modernos pueden tener sensibilidades mejores que 0.005 miligal, las desviación usuales en estudios de exploración geofísica están en el orden de 0,01 − 0,02 miligal. (1gal = 10−2 m/s2 ; 1 miligal = 10−5 m/s2 ) Se obtienen diferencias en gravedad medidas con estos gravímetros en unidades bastante arbitrarias, por ejemplo en divisiones en un día graduado. Posteriormente es necesario calibrar el instrumento utilizando el instrumento en varios puntos donde g sea conocido. 3.1.8. La Teoría gravitacional y otros aspectos de la Física. La teoría de Newton de la gravedad está basada en la existencia de una fuerza que aparece entre todos los pares de cuerpos, actuando a distancia. 3.1 Desarrollo de la teoría gravitacional. 61 Cuando una de las dos masas se mueve, se supone que la fuerza que actúa en otras masas, se ajusta instantáneamente a la nueva situación con la masa original cambiada de sitio. Esto entra en conflicto con la teoría de la relatividad especial, donde ninguna información o señal física puede viajar más rápidamente que la velocidad de luz. La teoría de la relatividad junto a la teoría del campo de fenómenos eléctricos y magnéticos, han tenido tal éxito, que se han construido teorías gravitatorias más modernas, como teorías de campo consistentes con los principios de la relatividad especial. En una teoría de campo, la fuerza gravitatoria entre los cuerpos es formada por un proceso del dos etapas: El cuerpo produce un campo gravitatorio que penetra todo el espacio que lo rodea. Un segundo cuerpo en ese espacio es actuado por el campo y experimenta una fuerza. 3.1.9. Teorías del campo de gravitación. La posibilidad que la gravitación pudiera unirse con las otras fuerzas de naturaleza en una teoría unificada de fuerzas aumentó el interés en teorías del campo gravitatorias durante los años setenta y los años ochenta. El primer modelo unificado de campos, y hasta ahora el único exitoso, es de los físicos Abdus Salam de Pakistán y Steven Weinberg y Sheldon L. Glashow de los Estados Unidos que propusieron que las fuerzas electromagnéticas y la fuerza débil (responsable del decaimiento beta), son manifestaciones diferentes de la misma interacción básica. (El decaimiento beta es un proceso donde un neutrón decae en un protón más un electrón y un neutrino) Los Físicos están ahora buscando activamente otras posibles combinaciones unificadas de fuerzas. Debido entre otros aspectos a que la fuerza gravitatoria es sumamente débil comparada con todas las otras, y porque aparenta ser independiente de todas las otras propiedades físicas excepto la masa, la unificación de gravitación con las otras fuerzas no se ha logrado. Un ejemplo de una teoría de campo es la relatividad general de Einstein según la cual la aceleración debido a gravedad es una consecuencia completamente geométrica de las propiedades de espacio-tiempo en el lugar donde se encuentra la masa. Las teorías de Einstein de campo de gravedad predicen correcciones específicas a la forma Newtoniana de la gravitación, en dos formas básicas: (1) cuando la materia está en movimiento, aparecen campos gravitatorios. adicionales, análogo a la aparición de campos magnéticos cuando las cargas eléctricas se mueven. (2) Las teorías clásicas de campo son lineales, en el 62 Gravitación. sentido que dos o más campos eléctricos o magnéticos se superponen por una simple suma vectorial para dar los campos totales, no siendo así en el caso de la teoría de Einstein de la gravitación. Algunas de las consecuencias de los términos de la corrección respecto a la teoría de Newton son pruebas concretas e importantes de la teoría de Einstein. Debe señalarse que estas predicciones de nuevos efectos gravitatorios. y de su comprobación experimental, requieren de mucho cuidado pues debido al trabajo pionero de Einstein en gravedad, esos campos gravitacionales afectan los instrumentos básicos de medición, en particular a los relojes. Algunos de estos efectos se listan debajo: 1. La proporción en que el ritmo de los relojes es reducida por proximidad de cuerpos masivos; es decir, los relojes cerca del Sol correrán más lento comparado con relojes idénticos más lejos del Sol. 2. En la presencia de campos gravitatorios. la estructura espacial de objetos físicos no es más describible por una geometría Euclidiana; por ejemplo, para formar un triángulo, la suma de los ángulos subtendidos no igualará 180 grados Un tipo más general de geometría, geometría de Riemann, parece necesario para describir la estructura espacial de la materia en la presencia de campos gravitatorios. Los rayos luminosos no viajan en líneas rectas, siendo desviados por los campos gravitatorios. En este sentido es posible decir que los diversos rayos luminosos que salen de un punto, dibujan la geometría local, en torno al punto. Ellos corresponden a las geodésicas del espacio-tiempo. 3.1.10. Los campos gravitacionales y la teoría general de relatividad. En la teoría general de la relatividad de Einstein, se formulan las consecuencias físicas de los campos gravitatorios. resumidamente de la siguiente manera. El espacio-tiempo es un continuo de cuatro dimensiones no Euclidiano. La curvatura de este espacio-tiempo es determinada por la distribución de masa de la materia. Las partículas y los rayos de luz viajan a lo largo de geodésicas, caminos extremales en este mundo geométrico de cuatro dimensiones. Hay dos consecuencias principales de este punto de vista geométrico de la gravitación: (1) las aceleraciones de cuerpos sólo dependen de sus masas y no en su constitución química o nuclear, y (2) el camino de un cuerpo o de 3.1 Desarrollo de la teoría gravitacional. 63 luz en la vecindad de un cuerpo masivo (el Sol, por ejemplo) es levemente diferente del predicho por la teoría de Newton. El primero es el principio débil de equivalencia. El propio Newton realizó experimentos con péndulos que demostraron el principio dentro de una parte en 1,000 para una variedad de materiales. Al principio del 20 siglo, el físico húngaro Roland, von del Barón Eötvös, mostró que materiales diferentes aceleran en el campo de la Tierra con la misma proporción dentro de una parte en 109 . Los más recientes experimentos han mostrado la igualdad de aceleraciones en el campo del Sol a dentro de una parte en 1011 . La teoría de Newton está en acuerdo con estos resultados debido al postulado que la fuerza gravitatoria es proporcional a la masa de un cuerpo. La masa inercial y gravitacional. La masa inercial es un parámetro que da cuenta de la resistencia inercial a los cambios de velocidad de un cuerpo al responder a todos los tipos de fuerza. Por otro lado, la masa gravitacional es determinada por la intensidad de la fuerza gravitatoria experimentada por el cuerpo cuando está en un campo gravitatorio. Por consiguiente, el experimento de Eötvös muestra que la razón entre la masa gravitatoria y la inercial es la misma para todas las substancias, aun cuando conceptualmente de trata de cosas muy diferentes, por lo menos así se pensaba hasta que llegó Einstein.. La teoría especial de la relatividad de Einstein, considera la masa inercial como una manifestación de todas las formas de energía en un cuerpo según su relación fundamental E = mc2 , donde E que la energía total de un cuerpo, m la masa inercial del cuerpo, y c la velocidad de luz. Tratando entonces con la gravitación, como un fenómeno de campo, el principio débil de equivalencia indica que todas las formas de energía del tipo no gravitacional deben acoplar idénticamente o deben actuar recíprocamente con el campo gravitatorio, porque los diversos materiales en la naturaleza poseen cantidades diferentes de energías nuclear, eléctrica, magnética, y cinética, y sin embargo todas ellas aceleran en proporciones idénticas. El Sol tiene un parte importante de energía gravitatoria interior, y las repeticiones de los experimentos de Eötvös durante los años setenta con el Sol en lugar de la Tierra revela que los cuerpos aceleran a las proporciones 64 Gravitación. idénticas en el campo del Sol así como en el de la Tierra. Las medidas hechas con láser, sumamente exactas, de la distancia de la Luna de la Tierra han hecho posible una prueba extensa del principio débil de equivalencia. Las constituciones químicas de la Tierra y la Luna no son las mismas, y si eso tuviera algún efecto, ellos deberían podrían acelerar en proporciones diferentes bajo la atracción del Sol. Ningún efecto se ha descubierto. Otros experimentos han dado confirmación de las predicciones de Einstein a una exactitud de uno por ciento. 3.1.11. Los caminos de partículas y luz. La idea que la luz debe ser desviada pasando al pasar cerca de un cuerpo material había sido sugerida por el astrónomo británico y geólogo John Michell durante el siglo 18. Sin embargo, la teoría de relatividad general de Einstein predijo una desviación dos veces más grande. Una confirmación del resultado de Einstein surgió al efectuar mediciones directas sobre la dirección de una estrella cerca del Sol durante el eclipse solar de 1919, durante la expedición llevada a cabo por el astrónomo británico Sir Arthur Stanley Eddington. Las determinaciones ópticas del cambio de dirección de la posición observada de una estrella están sujetas a muchos errores sistemáticos, y lejos, la mejor confirmación de la teoría de la relatividad general de Einstein se ha obtenido de las medidas de un efecto estrechamente relacionado—a saber, el aumento del tiempo tomado por la luz a lo largo de un camino cerca de un cuerpo material. Cronometrando el tiempo de viaje de ida y vuelta de un pulso de radar entre la Tierra y otros planetas internos que pasan detrás del Sol, los experimentos han confirmado con incertezas del orden de un 4 por ciento la predicción de un retraso de tiempo adicional. La precesión de la órbita de Mercurio de 43 segundos de arco segundo por siglo era conocido antes del desarrollo de la teoría de relatividad general. Con medidas hechas con radar de las distancias a los planetas, se han estimado precesiones anómalas similares para Venus y la Tierra , en plena concordancia con la relatividad general. 3.1.12. Estudio experimental de la gravitación. La esencia de la teoría de Newton de gravitación es que la fuerza entre dos cuerpos es proporcional al producto de sus masas y al inverso del 3.1 Desarrollo de la teoría gravitacional. 65 cuadrado de su separación y que esa fuerza no depende de nada más. Con una modificación geométrica pequeña, lo mismo es en general verdad en la teoría de la relatividad general. El propio Newton probó sus afirmaciones mediante experimentos y observaciones. Él hizo mediante el péndulo experimentos para confirmar el principio de equivalencia y verificó la ley cuadrada inversa como una aplicación a los periodo y diámetros de las órbitas de los satélites de Júpiter y Saturno. Durante la última parte del siglo 19 siglo muchos experimentos mostraron que la fuerza de gravedad es independiente de la temperatura, de los campos electromagnéticos, y de otros factores. Una parte de la actividad científica durante los años setenta consistió en un esfuerzo teórico para relacionar la fuerza de gravitación con otras fuerzas de la naturaleza. Se realizaron nuevos experimentos sobre el principio de la equivalencia. Se hicieron pruebas experimentales de la ley inversa al cuadrado de la distancia en el laboratorio. Ha existido también un interés permanente en la determinación de la constante de gravitación G, que ocupa una posición bastante anómala entre las otras constantes de la física. En primer lugar, la masa M, de cualquier objeto celestial no puede determinarse independientemente de la atracción gravitatoria que ejerce. Así, es la combinación GM, y no el valor separado de M, la única propiedad significativa de una estrella, planeta, o galaxia. Segundo, según la relatividad general y el principio de equivalencia, G no depende de propiedades materiales pues es en cierto sentido un factor geométrico. La determinación de la constante de gravitación no parece tan esencial como la medida de otras cantidades físicas como la carga del electrón o la constante de Planck. También está mucho menos bien determinada experimentalmente que cualquiera de las otras constantes de la física. Los experimentos en gravitación son de hecho muy difíciles, comparados con los experimentos en la ley inversa al cuadrado de la distancia en electrostática. La ley electrostática., que es también inversa al cuadrado de la distancia, se ha establecido dentro de una parte en 1016 usando el hecho que el campo dentro de un conductor cerrado es cero cuando la ley cuadrada inversa es verdadera. Así, midiendo cualquier campo residual con dispositivos electrónicos muy sensibles, podrían detectarse desviaciones muy pequeñas a esa ley. Las fuerzas gravitatorias tienen que ser medidas por medios mecánicos, a menudo el equilibrio de un péndulo de torsión y, aunque se han mejorado las sensibilidades de los dispositivos mecánicos, ellos todavía son mucho menos sensibles que los equipo electrónicos. Por último, las perturbaciones extrañas al experimento son relativamente grandes porque las fuerzas 66 Gravitación. gravitatorias son muy pequeñas Así, la ley inversa al cuadrado de la distancia se establece en laboratorios con una exactitud no mejor que una parte en 104 . 3.1.13. Datos actuales de las órbitas planetarias. Hoy se conocen bastante bien las características de los planetas y de sus órbitas, para lo cual se presenta la tabla siguiente M e rcu rio D istan cia al S o l (S em i eje m ayo r K m ) 5 7 ,9 0 9 ,1 7 5 Vo lu m e n (T ie rra = 1 ) M a sa 0.05 4 −27 ×10 g g cm−3 D en sid a d cm s−2 Ve nu s T ie rra M a rte 1 0 8 ,2 0 8 ,9 3 0 1 4 9 ,5 9 7 ,8 9 0 2 2 7 ,9 3 6 ,6 4 0 0 .8 8 1 .0 0 .1 49 0 .3 3 0 2 2 4 .8 6 9 0 5 .9 7 4 2 0 .6 4 1 9 1 5 .4 3 5 .2 4 5 .5 1 5 3 .9 4 370 887 980 371 Ve lo cid a d d e esca p e e n el E cu a d o r 4.25 k m / s 1 0 .3 6 k m / s 1 1 .1 8 k m /s 5 .0 2 k m / s Perio d o d e ro ta c ión (sid e ral, d ía s) 5 8 .6 4 6 2 2 4 3 .0 1 8 7 * 0 .9 9 7 2 6 9 6 8 1 .0 2 5 9 5 6 7 5 Perio d o o rb ita l (A ñ o s te rrestres) 0 .2 4 0 8 4 4 4 5 0 .6 1 5 1 8 2 5 7 4 7 .8 7 2 5 3 5 .0 2 1 4 2 9 .7 8 5 9 2 4 .1 3 0 9 E x c entric id a d d e la ó rb ita 0.20 5 6 3 0 6 9 0 .0 0 6 7 73 2 3 0 .0 1 67 1 0 2 2 0 .0 93 4 1 2 3 3 In c lin a ció n ó rb ita co n la ec líp tic a ( o ) 7 .0 0 4 8 7 3 .3 9 4 7 1 0 .0 0 0 0 5 In c lin a ció n E cu a d o r co n la ó rb ita ( o ) 0 .0 1 7 7 .3 2 3 .4 5 G raved a d e n la su p erficie Ve lo cid a d o rb ital p ro m ed io km s−1 T . m ed ia en la su p erfic ie só lid a K T ..atm o sféric a a l n ivel d e P = 1 b a r, K 1 .8 8 0 7 1 1 0 5 1 .8 5 0 6 1 2 5 .1 9 440 730 2 8 8 -2 9 3 1 8 3 -2 6 8 — — 288 — C o n stitu ye ntes p rin cip a les a tm ó sfe ra — R a d io m ed io ec u a to ria l (K m ) 2,43 9 .7 1 A U = 14 9 ,5 9 7 ,8 7 0.66 k m 0 .9 9 9 9 7 8 6 2 C O 2, N 2 6 ,0 5 1 .8 N2, O 2 6 ,3 7 8.1 4 C O 2, N2, A r 3 ,3 97 3.1 Desarrollo de la teoría gravitacional. J ú p ite r S a tu rn o 77 8 ,4 1 2 ,0 2 0 1 ,4 2 6 ,72 5 ,4 0 0 13 1 6 755 1,8 9 8 .7 56 8 .5 1 U ra n o 2 ,8 7 0 ,9 72 ,2 0 0 k m 52 8 6 .8 4 9 N e p tu n o 67 P lu tó n 4 ,4 9 8 , 2 5 2 , 9 0 0 5 ,9 0 6 ,3 7 6 ,2 0 0 44 0 .0 0 5 1 0 2 .4 4 0 .0 1 3 1.3 3 0 .7 0 1 .3 0 1 .7 6 1 .1 23 1 2 896 869 1100 81 59 .5 4 k m / s 0.4 1 3 5 4 1 1 .8 5 65 2 5 0 2 13 .0 6 9 7 0 .0 4 8 39 2 6 6 1.3 0 5 3 0 3 5 .4 9 k m / s 2 1 .2 9 k m / s 2 3 .7 1 k m / s 1 .2 7 k m / s 0 .4 4 4 01 0 .7 1 8 33 * 0 .6 7 1 2 5 2 9 .4 2 35 1 9 3 5 8 3 .7 4 74 0 6 8 2 1 6 3 .7 2 3 2 0 4 5 2 4 8 .0 2 0 8 9 .6 7 2 4 6 .8 3 5 2 5 .4 7 7 8 4 .7 4 9 0 0 .5 4 1 50 6 0 0 .0 4 7 16 7 7 1 2.4 8 4 4 6 0 .0 0 8 5 8 5 8 7 6 .3 8 7 1 8 * 0 .2 4 8 8 0 7 6 6 0 .7 6 9 86 1 .7 6 9 1 7 1 7 .1 4 1 7 5 2 9 .5 8 1 1 9 .6 1 3.1 2 2 6 .7 3 9 7 .8 6 — — — — 5 7 .8 16 5 134 76 73 — H 2 ,H e H e ,H 2 ,C H 4 H 2 ,H e, C H 4 H2, He — 2 5 ,5 5 9 2 4 ,7 6 4 1 ,1 9 5 71 ,4 9 2 60 ,2 6 8 * retrógrado. Ejercicio 3.1.1 Un cuerpo describe una órbita circular de radio R = 100 m en torno a un punto fijo con rapidez constante dando una vuelta completa por segundo. Determine la magnitud de la aceleración del cuerpo. Ejercicio 3.1.2 Si el cuerpo del ejercicio anterior, repentinamente siguiera en línea recta, determine la rapidez de crecimiento de la distancia al punto fijo en m/s. Ejercicio 3.1.3 Las masas de la Tierra y de la Luna son aproximadamente MT = 5,98 × 1024 kg y ML = 7,36 × 1022 Kg siendo la distancia promedio entre ellos 3,84 × 108 m. Determine la fuerza ejercida por la Tierra sobre la Luna y la ejercida por la Luna sobre la Tierra. Ejercicio 3.1.4 De los datos del ejercicio anterior, determine el tiempo empleado por la Luna en dar una vuelta completa en torno a la Tierra, en días. Ejercicio 3.1.5 Determine aproximadamente la fuerza que hace la Luna sobre una persona de la Tierra de masa 80 Kg. 68 Gravitación. Ejercicio 3.1.6 Si el radio de la Luna es 1,74 × 106 m determine cuanto pesa un Kg de oro en la Luna. Ejercicio 3.1.7 De acuerdo a los radios orbitales, evalúe los periodos orbitales usando la tercera ley de Kepler, comparando con los datos tabulados. Ejercicio 3.1.8 Determine a qué distancia entre la Tierra y la Luna, un cuerpo no es atraído hacia ninguno de los dos cuerpos. Ejercicio 3.1.9 Un péndulo de longitud L = 2 m efectúa oscilaciones en la superficie terrestre. Determine el número de oscilaciones que efectúa en cada segundo. Ejercicio 3.1.10 Utilizando las leyes de Kepler, discuta la existencia del planeta X, hipotético planeta igual a la Tierra, en su misma órbita elíptica en torno al Sol, pero que permanece siempre oculto detrás del Sol y por eso no ha sido observado. Ejercicio 3.1.11 Si la distancia promedio de la Tierra al Sol es aproximadamente 1,496 × 1011 m determine aproximadamente la masa del Sol. Ejercicio 3.1.12 Verifique con los datos de la tabla, el cumplimiento de la tercera Ley de Kepler. Ejercicio 3.1.13 De acuerdo a las masas de los planetas, evalúe las velocidades de escape desde sus superficies, comparando sus valores con los tabulados. Ejercicio 3.1.14 De acuerdo a las masas de los planetas y sus radios, evalúe la aceleración de gravedad en sus superficies, comparando sus valores con los tabulados. Ejercicio 3.1.15 Estudie si existe alguna ley que de cuenta de las distancias de los planetas al Sol. (Por razones históricas, considere unidades donde la distancia Tierra Sol sea 10). Si existe alguna discontinuidad en su ley, aventure alguna hipótesis. Capítulo 4 Caída libre y movimiento de proyectiles. 4.1. Aceleración. De acuerdo a lo establecido por Galileo, los cuerpos en la vecindad de la Tierra, están acelerados hacia el centro de la Tierra independientemente de su masa con una magnitud aproximadamente g = 9,8 m/s2 . Esto es cuando el efecto de la resistencia con el aire puede despreciarse. Si se utiliza un sistema cartesiano de referencia con el eje OY vertical hacia arriba, lo anterior puede escribirse vectorialmente como a = −ĝ, (4.1) De acuerdo al significado de la aceleración se tiene que d2 r = −ĝ, dt2 que puede ser escrita en términos de la velocidad v (4.2) d v = −ĝ. (4.3) dt De aquí, mediante el proceso conocido como integración podemos obtener que Z t Z v(t) dv = − ĝdt, (4.4) v(0) 0 70 Caída libre y movimiento de proyectiles. de donde v(t) − v(0) = −gt̂, (4.5) de modo que tenemos dr = v(0) − gt̂. (4.6) dt Expresión que da cuenta de las variaciones de la velocidad con el tiempo, en términos de la velocidad inicial v(0), del tiempo transcurrido t, y de la aceleración de gravedad. Si la última expresión se integra nuevamente puede obtenerse Z Z v(t) = r(t) t (v(0) − ĝt)dt (4.7) 1 r(t) − r(0) = v(0)t − ĝt2 , 2 (4.8) 1 r(t) = r(0) + v(0)t − ĝt2 . 2 (4.9) dr = r(0) 0 por lo tanto y finalmente 4.2. Componentes cartesianas. Recordando que r(t) = xı̂ + ŷ, (4.10) v = vx ı̂ + vy ̂, (4.11) y que las expresiones 4.6, 4.9 en componentes conducen a vx (t) = vx (0), vy (t) = vy (0) − gt, x(t) = x(0) + vx (0)t, 1 y(t) = y(0) + vy (0)t − gt2 . 2 Expresiones que dan las componentes cartesianas de la velocidad y posición en términos de las condiciones iniciales y del tiempo transcurrido. 4.2 Componentes cartesianas. 4.2.1. 71 Condiciones iniciales particulares. Caída libre. Objeto que se suelta desde una altura h, en reposo: vx (t) = 0, vy (t) = −gt, x(t) = 0, 1 y(t) = h − gt2 . 2 La altura decrece en forma proporcional al cuadrado del tiempo. Además el tiempo total de caída, desde la altura h se obtiene haciendo y(t) = 0 obteniendo s 2h . t= g Por ejemplo si h = 10 m se tiene aproximadamente t = 1,41 s. Este tiempo no podía determinarse con tal precisión en los tiempos de Galileo. De hecho Galileo estudió el movimiento de cuerpos en caída pero sobre un plano inclinado, para incrementar los tiempos de caída y poderlos determinar con la precisión suficiente para los medios disponibles en aquellos tiempos. Usted podría quizás establecer que si el plano inclinado es liso y su ángulo de inclinación es α, el tiempo empleado por el cuerpo para descender una altura h está dado por s 2h t= . g sin α Lanzamiento vertical hacia arriba con rapidez inicial v0 : vx (t) = 0, vy (t) = v0 − gt, x(t) = 0, 1 y(t) = v0 t − gt2 . 2 Lanzamiento desde una altura h, con rapidez inicial v0 formando un 72 Caída libre y movimiento de proyectiles. ángulo α con la horizontal vx (t) = v0 cos α, vy (t) = v0 sin α − gt, x(t) = v0 (cos α)t, 1 y(t) = h + v0 (sin α)t − gt2 . 2 4.2.2. Ecuación de la trayectoria. Para el último caso, podemos obtener la ecuación de la trayectoria, eliminando el tiempo entre x(t) e y(y), obteniendo y = h + x tan α − gx2 , 2v02 cos2 α (4.12) un parábola de segundo grado conocida como la parábola de tiro. Ejercicio 4.2.1 Si un proyectil es lanzado desde el origen con rapidez inicial v0 formando un ángulo α con la horizontal, demuestre que la altura máxima H, y el alcance horizontal D, punto de caída sobre el eje OX están dados por v02 v2 sin α cos α = 0 sin 2α, g g 2 v H = 0 sin2 α. 2g D = 2 Ejercicio 4.2.2 Para el caso anterior, demuestre que el máximo alcance D se logra cuando α = π/4. 4.2.3. Parábola de seguridad. Si un proyectil es lanzado desde el origen con rapidez inicial v0 formando un ángulo α con la horizontal, analicemos que puntos del plano OXY son alcanzables para una rapidez inicial v0 dada. La ecuación de la parábola que sigue el disparo puede escribirse como gx2 gx2 y = x tan α − 2 = x tan α − 2 (1 + tan2 α); 2 2v0 cos α 2v0 (4.13) 4.2 Componentes cartesianas. 73 t Figura 4.1: parábola de disparo. de donde podemos despejar tan α, resultando gx2 gx2 2 tan α − x tan α + y + = 0, 2v02 2v02 (4.14) p (v04 − 2gyv02 − g 2 x2 ) tan α = , (4.15) gx es decir, en general hay dos ángulos de disparo para alcanzar un punto de coordenadas (x, y). Sin embargo si la cantidad subradical es negativa, dicho punto no es alcanzable. La frontera entre la región alcanzable y la no alcanzable, la constituyen los puntos (x, y) para los cuales la cantidad subradical es cero, es decir los puntos tales que v02 ± v04 − 2gyv02 − g2 x2 = 0 (4.16) o bien v02 gx2 − . (4.17) 2g 2v02 Esta es la ecuación de una parábola simétrica respeto al eje OY , conocida como parábola de seguridad. Los puntos sobre la parábola de seguridad son alcanzables justo para un ángulo, de (4.15) ese ángulo está dado por y= tan α = v02 . gx (4.18) 74 Caída libre y movimiento de proyectiles. x Figura 4.2: Parábola de seguridad. 4.2.4. Alcance máximo. Si un proyectil es lanzado desde el origen con rapidez inicial v0 formando un ángulo α con la horizontal, podemos preguntarnos ¿cuál es el máximo alcance sobre un plano inclinado en un ángulo β respecto a la horizontal y que pasa por el origen y en qué ángulo de disparo se logra ese máximo? Una respuesta simple se deduce al encontrar la intersección entre la parábola de seguridad y la recta y = x tan β, es decir resolver v02 gx2 − , 2g 2v02 y = x tan β, y = obteniendo x = (− tan β + sec β) v02 , g y = tan β (− tan β + sec β) v02 g de modo que el alcance máximo sobre el plano inclinado es D= p v2 x2 + y 2 = x sec β = sec β (− tan β + sec β) 0 . g (4.19) 4.2 Componentes cartesianas. 75 x Figura 4.3: Alcance máximo. Para obtener el ángulo α tenemos que o sea 1 cos β v2 = = tan α = 0 = gx (− tan β + sec β) − sin β + 1 s 1 + sin β 90 + β = tan = 1 − sin β 2 s 1 − sin2 β (1 − sin β)2 90 + β . (4.20) 2 Note que si β = 0 se obtiene como era esperado α = 45o . La figura (??) siguiente ilustra lo que ocurre para v0 = 10, β = 30o α= Nota 4.1 Si se usara la transformación de Galileo, bastaría saber la solución del problema de la caída libre vertical, para obtener el movimiento de un proyectil con cualquier condición inicial de velocidad. En efecto, respecto al sistema S 0 en que las condiciones iniciales de posición son (0, h) y velocidad cero, la solución del problema es x0 = 0, 1 y 0 = h − gt2 . 2 Para obtener la solución general, considere otro sistema S que se mueve respecto a S 0 con velocidad v = −v0 (cos α)ı̂ − v0 (sin α)̂, 76 Caída libre y movimiento de proyectiles. y tal que los orígenes coinciden en t = 0. La transformación de Galileo establece que r 0 = r + vt, o bien, despejando las componentes x, y x = v0 (cos α)t, 1 y = h + v0 (sin α)t − gt2 . 2 Ejercicio 4.2.3 Un cazador que no sabe física, es decir que los proyectiles caen con la aceleración de gravedad, apunta en consecuencia directamente a un mono que está sobre una árbol. El mono que tampoco sabe física, se deja caer justo cuando el cazador dispara. ¿Qué acontece? Ejercicio 4.2.4 Un explorador se encuentra con un pozo de alguna profundidad desconocida. Para averiguar la profundidad deja caer una piedra y toma nota del tiempo t = 4 s entre que soltó la piedra y que escuchó el sonido de impacto de la piedra contra el fondo. Considerando que el sonido viaja con velocidad constante de 340 m/s determine la profundidad del pozo. Ejercicio 4.2.5 Un barco pirata se aproxima a un fuerte que está sobre un acantilado de 100 m de altura. El barco y el fuerte tienen cañones iguales que disparan proyectiles con rapidez de salida de 200 m/s. Determine la distancia horizontal a la cual el fuerte queda al alcance del cañón del barco y a la cual el barco queda al alcance del fuerte. Ejercicio 4.2.6 Un atleta que dispara la bala, que tiene una altura de 1,80 m alcanza una distancia horizontal de 20 m. Suponiendo que la bala parte de esa altura y que fue lanzada en el ángulo óptimo, determine ese ángulo. (No es 45o ) Ejercicio 4.2.7 Desde una altura de 100 m se deja caer una piedra. Un segundo más tarde se lanza otra piedra desde el suelo hacia arriba con rapidez de 10 m/s. Determine la altura a la cual se cruzan. Ejercicio 4.2.8 Una pelota se deja caer desde una altura de 100 m. En cada rebote en el suelo, la pelota pierde la mitad de su rapidez. (es decir rebota con la mitad de la velocidad con que llegó al suelo) Determine el tiempo que tarda la pelota en quedar en reposo en el suelo. 4.2 Componentes cartesianas. 77 Ejercicio 4.2.9 Respecto al problema anterior, determine el total de espacio recorrido por la pelota hasta detenerse. Ejercicio 4.2.10 Un cañón dispara proyectiles con rapidez de 100 m/s. Determine el ángulo de disparo adecuado para dar en un blanco situado a 100 de altura y a una distancia horizontal de 1000 m del cañón, en el mínimo tiempo. Nota 4.2 Hay dos factores que en realidad hacen que la aceleración de gravedad no sea constante. Uno de ellos es la altura. Si la altura es h sobre la superficie terrestre y R es el radio terrestre, la aceleración de gravedad varía con la altura de la forma aproximada (ver 3.1) µ ¶ h g(h) = g(0) 1 − 2 . R variación despreciable para altura mucho menores que el radio terrestre. En segundo lugar, la rotación terrestre hace que la aceleración de gravedad sea algo menor en el Ecuador que en los Polos, diferencia no muy grande porque la Tierra no gira muy rápido. De hecho si la rotación fuera muy rápida, los objetos tienen una tendencia a salir de la Tierra (a seguir en línea recta). 78 Caída libre y movimiento de proyectiles. Capítulo 5 La evolución de las estrellas. 5.0.5. Introducción. La materia del Universo está localizada hoy en día principalmente en las estrellas, las cuales están agrupadas en cientos de miles de millones, formando organizaciones llamados galaxias. A su vez las galaxias aparecen agruparse en cúmulos y supercúmulos, superestructcturas entre las cuales hay una enorme cantidad de espacio prácticamente vacío. De ese modo la densidad promedio del Universo es muy baja, digamos del orden de un átomo por metro cúbico. Algo parecido sucede al interior de un átomo. La masa está localizada prácticamente toda en su núcleo, cuyas dimensiones son una pequeñísima fracción del tamaño del átomo. En el núcleo atómico se encuentran densidades cercanas a los 300,000,000 de toneladas por centímetro cúbico. 5.0.6. Las cuatro fuerzas fundamentales. Las cuatro fuerzas o interacciones fundamentales de la naturaleza, electromagnética, débil, fuerte y gravitacional., influyen en el comportamiento de la materia según las densidades involucradas. Así, la interacción electromagnética predomina desde bajas densidades a densidades del orden de 10 toneladas por centímetro cúbico. Aquí se manifiesta la interacción débil, que provoca enormes cambios en la estructura de la Materia, causando por ejemplo la transformación de protones en neutrones, mediante la absorción de electrones o a la inversa. A densidades superiores a 100,000 toneladas 80 La evolución de las estrellas. por centímetro cúbico, el comportamiento de la materia es gobernado por la fuerza fuerte. Por último, la fuerza gravitacional. provee el mecanismo para llevar la materia a esas enormes densidades, no estando claro en que otra forma ella influye en el comportamiento de la materia. La materia como la conocemos en la Tierra, corresponde a las condiciones de presión y temperatura existentes en nuestro planeta, por lejos diferentes son las condiciones de la mayor parte de la materia presente en el Universo. En la Tierra hay átomos neutros, separados enormes distancias entre sí, dependiendo de si se trata de gases, líquidos o sólidos, las tres tradicionales formas de la materia en nuestro planeta. Los avances en el conocimiento de las interacciones básicas de la materia en sus diversas formas, ha sido posible gracias a la observación de lo que ocurre en las estrellas y en los objetos estelares en sus etapas finales de existencia, a la creación en laboratorios de alta energía de condiciones extremas de temperaturas y densidades, y a la formulación de modelos teóricos, que a su vez permiten idear nuevos experimentos en la tierra, u observar detalles finos de los objetos estelares para su comprobación. El Universo nos proporciona un gigantesco laboratorio cuya observación detallada nos ayuda a comprenderlo, con la ocurrencia de eventos imposibles de lograr en nuestro planeta. 5.0.7. Equilibrio de un gas. Un gas, un conjunto de átomos o moléculas que se mueven más o menos libremente hasta que choquen entre sí o con las paredes del recipiente que los contiene, alcanza un estado de equilibrio. La rapidez del movimiento de las partículas es una medida de la llamada temperatura del gas, las colisiones por unidad de tiempo contra las paredes son una medida de la llamada presión del gas. En general, si el volumen se disminuye, aumentan las colisiones de las partículas entre sí y con la pared, lo que significa aumento de temperatura y presión, aún cuando podría mantenerse la temperatura constante o aún bajarse. Eso requiere sin embargo sacar energía del sistema a través de las paredes que lo confinan. Para un gas ideal, existe la llamada ecuación de estado que establece los posibles estados de equilibrio del gas, la cual es una relación entre la temperatura T , la presión P , el volumen V en la forma pV = nRT. Para otras formas de la materia, la ecuación de estado, toma formas más complicadas, ver apéndice. 81 R es la llamada constante de los gases (R = 8,314510 J mol−1 K−1 ), y n es el número de moles de gas encerrado en el volumen. Un mol de substancia es igual a una cantidad de masa igual al peso atómico o molecular según se trate de átomos o moléculas, expresado en gramos. Otra forma de confinamiento de un gas que no requiere de paredes, la provee la fuerza gravitacional. que prueba ser muy efectiva, cuando la cantidad de materia es relativamente grande. Es el caso de nuestra atmósfera, de los gases del planeta Júpiter, y otros planetas exteriores. No así es el caso de la Luna, donde la gravedad fue insuficiente para mantener confinada algún tipo de atmósfera. 5.0.8. Sólidos y líquidos. En los líquidos y sólidos, las densidades son mucho mayores. Además de la agitación térmica, aparecen fuerzas de origen eléctrico que impiden su acercamiento, y exigen presiones mucho mayores para lograr disminuciones apreciables de su volumen. El estado sólido, el de mayor densidad de la materia común de nuestro planeta, requiere de la Física cuántica. para su descripción. En el libro de Física de Serway, hay un interesante ensayo sobre la física de las altas presiones, y en que medida se ha podido avanzar en lograr presiones altas sobre los sólidos, por medios mecánicos. Es claro que por métodos mecánicos existen límites insuperables al considerar que los sólidos tienen durezas limitadas, a saber el diamante es el más duro, en consecuencia la mejor prensa deberá tener diamante como agente de compresión. 5.0.9. La fuerza gravitacional. Para explicar estos conceptos, es suficiente recurrir a la forma Newtoniana de la teoría de la gravitación. Dos masas se atraen con una fuerza proporcional a sus masas e inversamente al cuadrado de su distancia. Es en consecuencia una fuerza de alcance ilimitado y acumulativa, en cuanto crece sin límite al acumular más masa. Su expresión matemática es F =G 5.0.10. m1 m2 . d2 Estados extremos de la materia. Formas de la materia. 82 La evolución de las estrellas. La materia normal, como la conocemos usualmente está formada por átomos o molécula. Uno de los constituyentes del átomo es el núcleo atómico, ver figura (5.1) donde se muestran sus componentes básicos Figura 5.1: El núcleo atómico. En las figuras (5.2) y (5.3) Figura 5.2: Atomo se muestra esquemáticamente la forma normal de la materia en la Tierra. La presión a densidades bajas es causada por las colisiones de las partículas con las paredes, como se esquematiza en la figura (5.4). Para densidades superiores a 50 gramos por centímetro cúbico, figura (5.5), los orbitales comienzan a solaparse. Ello causa finalmente la pérdida de los electrones de los átomos. A partir de densidades del orden de 500 gramos por centímetro cúbico, se tiene un plasma de Fermi, fluido de electrones donde nadan los núcleos desnudos de sus electrones, ver figura (5.6). La figura (5.7) ilustra la presión debida a un mar de electrones libres, de acuerdo al principio de exclusión de Pauli. 83 Figura 5.3: Molécula Figura 5.4: presión ejercida por un gas. Figura 5.5: Orbitales solapándose. 84 La evolución de las estrellas. Figura 5.6: Plasma de Fermi. Figura 5.7: Principio de exclusión de Pauli. 85 Figura 5.8: Interacción débil. Figura 5.9: Sobre un millón de toneladas por cc. A partir de densidades del orden de 100 toneladas por centímetro cúbico, los electrones rápidos penetran en el núcleo, interactuando con los protones mediante la interacción débil, figura (5.8) El exceso de neutrones en los núcleos causa la expulsión de ellos, expulsión causada por el principio de exclusión de Pauli. No hay estados disponible para ellos dentro del núcleo, por lo cual deben abandonarlo. La figura (5.9) representa a los neutrones libres que forman un fluido de Fermi, donde nadan electrones y núcleos enriquecidos con neutrones En la figura (5.10), los núcleos se han disuelto, y se muestra esquemáticamente la materia de neutrones, fluido de Fermi consistente en un mar de neutrones libres, con algunos protones y electrones en igual proporción, que soporta la presión hasta densidades sobre unos 100 millones de toneladas por centímetro cúbico. 86 La evolución de las estrellas. Figura 5.10: Mar de neutrones. Proceso de compresión. Imaginemos entonces que pudiéramos comprimir materia sin límites, de hecho la gravedad, si hay masa suficiente, puede hacerlo. El conocimiento actual nos permite responder hasta un cierto límite de los sucesos que ocurren en este proceso. Cuando la densidad alcanza valores entre 30 y 50 gramos por centímetro cúbico, el volumen se ha reducido hasta el punto que en los orbitales atómicos empiezan a tocarse, o sobreponerse. Aparecen entonces fuerzas de repulsión de origen cuántico, consecuencias del principio de exclusión de Pauli., descubierto por él en el año 1925. Ello hace necesario aumentar más la presión para tratar de aumentar la densidad. Este principio de exclusión prohibe a los fermiones, protones, neutrones y electrones ocupar el mismo estado físico. En este proceso de acercamiento, entonces los electrones escapan de los átomos. A medida que este proceso sigue, al alcanzar una densidad del orden de 500 gramos por centímetro cúbico, los electrones se han separados de los átomos, y la materia adquiere una forma como de una sopa de electrones donde se mueven los núcleos desnudos. A partir de ese punto, la presión requerida para el equilibrio, depende casi exclusivamente de la temperatura, o sea de la agitación, de esos electrones libres. Este estado de materia se conoce como un fluido o gas de Fermi degenerado. Este tipo de materia puede soportar, sin colapsar, densidades de hasta un orden de entre 1 a 10 toneladas por centímetro cúbico. En este estado, los núcleos no desempeñan un papel significativo, salvo el de neutralizar la carga eléctrica de la materia. Cuando la densidad supera los 100 toneladas por centímetro cúbico, la enorme velocidad de los electrones, en el ámbito 5.1 Formación de una estrella. 87 relativista, es tan grande que los electrones pueden al chocar contra los núcleos, penetrar en ellos combinándose con los protones de ellos, formando neutrones. La responsable de esta transformación es la llamada interacción débil. Aquí comienza a jugar de nuevo un rol el principio de exclusión; los nuevos neutrones que se crean en los núcleos no tienen estados físicos distintos disponibles y en consecuencia se ven obligados a abandonar el núcleo. Ahora la presión en aumento es equilibrada por un sistema de neutrones libres, cada vez en mayor número, hasta que finalmente todos los electrones se han combinado con protones, terminándose en esta etapa con un fluidos de neutrones degenerados. Aquí se llega a las últimas cuestiones conocidas por la física actual. Como se cree, los hadrones, familia de partículas elementales a las cuales pertenecen los neutrones y protones, están constituidas por quarqs, que están confinadas en una especie de saco que define la frontera del hadrón. A presiones superiores, al alcanzar densidades más o menos cinco veces la densidad nuclear, aproximadamente entre 1000 y 1500 millones de toneladas por centímetro cúbico, esos sacos, se cree, deberían romperse de modo que los quarqs serían liberados, formando una especie de sopa de quarqs, el supuesto estado final de la materia ultra comprimida. 5.1. Formación de una estrella. De acuerdo a la teoría del big bang, que será descrita en otro capítulo, después de las primeras etapas, en el Universo existía una gran cantidad de Hidrógeno, nubes de hidrógeno, las cuales por razones no totalmente comprendidas pero donde la gravitación es la fuerza preponderante, formaron regiones de mayor concentración de hidrógeno, de forma cuasi esférica, o elipsoidal si hay rotación neta del gas de hidrógeno. Estas configuraciones, si de masa suficiente reciben el nombre de proto estrellas. Normalmente se formaron grupos de estas regiones, interactuando colectivamente por la gravitación entre ellas. La evolución de estas configuraciones cuasi esféricas depende de la masa de ellas, existiendo diversas posibilidades. La gravitación tiende a aumentar la densidad. Si la cantidad de masa es del orden de la masa de la tierra, el proceso de compresión, al aumentar la temperatura, causará la perdida de la mayor parte del gas debido a que la fuerza gravitacional. es insuficiente para retener el gas. Si la masa inicial mayor que la de la Tierra pero menor que un décimo de la masa solar, la gravedad retiene los gases, 88 La evolución de las estrellas. Figura 5.11: Evolución de las estrellas dando origen a las estrellas llamadas enanas marrones y también es el caso de los planetas Júpiter y Saturno. En este sentido Júpiter tuvo insuficiente masa para convertirse en una estrella. Cuando la masa inicial es superior al diez por ciento de la masa solar, el sol incluido entonces, entra en juego un mecanismo que determina la mayor parte de la vida de una estrella. La gravedad causa un aumento de la densidad y temperatura en el núcleo de la estrella, alcanzando los niveles que permiten entrar en juego a la interacción fuerte, donde los núcleos de Hidrógeno comienzan a fusionarse formando Helio. La enorme cantidad de energía liberada equilibra entonces la presión causada por la gravedad, permitiendo a la estrella brillar y vivir una enorme cantidad de tiempo en equilibrio. En este proceso, la enorme cantidad de energía producida en el corazón de la estrella sale a su superficie y de allí al espacio en forma principalmente de radiación electromagnética. Se alcanzan en el núcleo temperaturas del orden de unos 15 millones de grados si la estrella es del tipo de nuestro Sol, y mayores en estrellas más masivas. Alcanzado este estado de equilibrio las estrellas viven entre decenas y miles de millones de años. Como explicaremos, el destino final de una estrella, depende de su masa inicial, como se esquematiza en la figura (5.11) 5.1 Formación de una estrella. 5.1.1. 89 Agonía de una estrella. Enana blanca. Para una estrella con una masa comparable a la Solar, al agotarse el Hidrógeno, la gravitación causará un aumento en la densidad y temperatura del núcleo, logrando las condiciones para reacciones nucleares superiores, formando en diversas etapas, algunos millones de años, núcleos de Carbono, Oxígeno, hasta llegar a la formación del Fierro, con un crecimiento de la estrella hasta una conocida como gigante roja. La reacción nuclear que crea el Fierro, no produce energía, sino que absorbe energía. La estrella pierde su envoltura, casi la mitad de su masa, formando una nebulosa planetaria, y luego comienza a comprimirse lentamente, hasta alcanzar las densidades de un gas comprimido de electrones degenerados que es capaz de detener la compresión gravitacional. Su tamaño se ha reducido hasta un diámetro del orden de unos 10,000 kilómetros, comparable a la tierra, y su masa es del orden de la mitad de la del Sol. El núcleo de esta estrella está constituido principalmente de Carbono y Oxígeno, pero quien balancea la presión es el gas degenerado de electrones de Fermi. Esta estrella en su estado final, aún muy caliente, se conoce como una enana blanca, llamada así porque es muy blanca. A partir de allí seguirá enfriándose perdiendo luminosidad hasta apagarse. Cálculos debidos al astrofísico Chandrasekhar, dan un límite a la masa final de una enana blanca capaz de soportar la gravedad. Ese valor límite es de alrededor de 1,4 veces la masa Solar. Las consecuencias del cálculo de Chandrasekhar fueron perturbadoras. ¿Qué ocurriría a las estrellas de mayor masa una vez agotado su combustible nuclear? Estrella neutrónica. En consecuencia el destino de una estrella de mayor masa debe ser otro. Las estrellas más masivas tienen algunas veces un final más catastrófico. En algunos casos, las estrellas pierden mucha masa durante su vida, en forma de viento estelar por ejemplo, evitando así sobrepasar el límite de Chandrasekhar. Pero estrellas de mucho mayor masa pasan al formarse hierro, a lo que se denomina una super gigante roja. Su núcleo, compuesto principalmente de hierro, Níquel y otros elementos, en forma muy comprimida, penetrada por el plasma de electrones degenerados que soporta el colapso gravitacional, además debe soportar el peso de las capas exteriores de la estrella. El hierro es el último paso de los procesos nucleares en una estrella. Debido a la 90 La evolución de las estrellas. enorme presión y al agotamiento de la energía de las reacciones nucleares, el núcleo de la estrella colapsa hasta, como explicamos, formando un núcleo de puros neutrones, con un radio del orden de 10 kilómetros. En este proceso los núcleos son desarmados formando una sopa de neutrones. Esto se conoce como una estrella de neutrones o pulsar. Hay que decir que normalmente un neutrón es sólo estable dentro de un núcleo, y cuando está libre decae en un protón un electrón y un neutrino. Aquí, debido a la enorme densidad, nuevamente el principio de exclusión de Pauli, prohibe el decaimiento del neutrón. Cálculos teóricos establecen también un límite a la masa que una estrella de neutrones puede soportar sin colapsar en alrededor de algo menos que tres masas solares. Durante los años 30, las estrellas de neutrones no se habían concebido, y los cálculos de Chandrasekhar fueron duramente cuestionados por el famoso teórico Arthur Eddington. Esto provocó el abandono de Chandrasekhar de la academia británica quien se fue a la Universidad de Chicago. El tiempo probó que Eddington estaba errado. Figura 5.12: Estrella neutrónica o pulsar. Supernova. Sin embargo, si la masa de la estrella es muy grande, compresión ha sido tan rápida que la enorme cantidad de materia de las capas exteriores se queda rezagada y comienza a acelerar hacia el núcleo, desplomándose sobre 5.1 Formación de una estrella. 91 el a enormes velocidades. El violento choque contra el durísimo núcleo, hace que la materia rebote, enviando al espacio una enorme cantidad de energía y materia, que ha seguido en este proceso toda la serie de reacciones de fusión nucleares posibles, formando los elementos más pesados hasta el Uranio. Esta explosión, conocida como una Supernova, puede destruir todo el astro, dejar como resto una estrella neutrónica o bien eventualmente un agujero negro. Figura 5.13: Supernova 1987A Una de las características de las estrellas neutrónicas, consecuencia de la conservación del momentum angular, es que al haber disminuido tanto de tamaño, debe girar muy rápidamente sobre su eje, decenas o centenas de veces por segundo, arrastrando a su vez un campo magnético muy intenso, como esquematizado en la figura (5.12). Ello causa el envío al espacio de enormes pulsos de energía electromagnética, que si son recibidos en la Tierra, son recibidos de acuerdo a la frecuencia de rotación de la estrella. De aquí la denominación de pulsares a las estrellas neutrónicas. La existencia de las estrellas neutrónicas permaneció una conjetura hasta 1968, cuando Jocelyn Bell, encontró mediante la utilización de un radio telescopio, encontraron una fuente de ondas de radio en forma de pulsos que se recibían cada 1.3 segundos. 92 La evolución de las estrellas. Figura 5.14: Sistema binario. tal rapidez sólo pudo ser explicada por una estrella de neutrones girando muy rápidamente en torno a su eje. Hoy hay buena evidencia para suponer que en nuestra galaxia, la vía láctea, existen alrededor de 100 millones de estrellas neutrónicas. Nova. Las Novas ocurren en sistemas de estrellas binarias cercanas, donde una de las estrellas es una enana blanca, y la otra es como el Sol. Por el mecanismo de acreción de masa, la enana blanca quita hidrógeno a su vecina, el cual se acumula en su superficie causando un progresivo aumento de la presión. El hidrógeno acumulado puede permanecer pasivo a veces por miles de años, hasta que, al alcanzarse un valor crítico de presión, inicia entonces una explosión termonuclear en su base, conocida como una Nova, mucho menos energética que una supernova y que no destruye a la estrella. En la figura (5.14) se muestra un donde una enana blanca captura materia de su estrella compañera Agujero negro. De acuerdo a la teoría de la gravitación, para que un cuerpo pueda escapar de la atracción gravitacional. y no regresar, la velocidad que debe 5.1 Formación de una estrella. 93 tener el cuerpo, llamada velocidad de escape, debe tener el valor r 2GM , v= R siendo G la constante de gravitación universal, M la masa del astro, y R su radio. Si la masa es muy grande, eventualmente la velocidad escape alcanza un límite, la velocidad de la luz. Eso define el llamado radio de Schwartzchild RS = 2GM c2 De acuerdo a los valores para la masa de Sol y de la Tierra M¯ = 1,99 × 10 Kg y MT = 5,977 × 1024 Kg se pueden calcular 30 RS¯ = RST = 26,67259 × 10−11 × 1,99 × 1030 = 5897. 6 m, (3 × 108 )2 26,67259 × 10−11 × 5,977 × 1024 = 1. 771 4 × 10−2 m, (3 × 108 )2 de modo que si la tierra se comprimiera a ese tamaño, menos de dos centímetros, la velocidad de escape sería la velocidad de la luz. La densidad de la Tierra sería ρ= MT 4 3 πRST 3 = 2. 567 1 × 1020 T on . cm3 Una estrella neutrónica, al igual que la enana blanca, tiene un límite para la masa que puede tener. Se ha calculado que esa masa es del orden de 1,95 de la masa solar. Si por algún motivo, la estrella neutrónica adquiere más masa que esa, ya sea en el proceso de la supernova, o por captura de materia (acreción) del espacio o de estrellas vecinas, se llega a un punto en que no existe mecanismo conocido que permita equilibrar la presión gravitacional., la estrella colapsa sin límite, el radio se hace inferior al radio de Schwartzchild, y nada, incluido la luz puede escapar de ella. Se ha creado un agujero negro, invisible desde el exterior excepto por el enorme campo gravitacional que produce. 94 La evolución de las estrellas. Capítulo 6 El Universo y su evolución. 6.1. Introducción El estudio y observación del Universo, con mayúscula, involucra todo lo que puede analizarse con el método científico. Queremos describir lo que las actuales teorías y datos observacionales nos informan sobre la estructura actual del Universo y sus posibles formas de evolución. A gran escala la fuerza predominante es la fuerza gravitacional, pero como se ha explicado, a otros niveles de densidad de la materia, juegan un papel importante otras fuerzas. De las cuatro interacciones que se suponen son las básicas, a modo de comparación, utilizando un factor de acoplamiento adimensional, ellas están en los ordenes relativos de magnitud que se indican en la tabla siguiente Fuerte Electromagnética Débil Gravitacional αS = 15 (strong) α = 7,3 × 10−3 αW = 3,1 × 10−12 (weak) αG = 5,9 × 10−39 . Como veremos, ellas han jugado un rol determinante en diversas etapas del modelo aceptado hoy en día de la evolución del Universo. Diversas preguntas se pueden formular sobre el Universo, antiguamente en el plano de la filosofía, hoy día tratables con métodos de la Ciencia. ¿Es el Universo finito o infinito? ¿Tuvo o no un comienzo? ¿Es el Universo siempre igual (Estático) o evoluciona con el tiempo (Dinámico)?, y muchas más. El problema de un Universo estático o dinámico fue planteado apenas formulada la teoría de la Gravitación de Newton. En efecto, si todos los cuerpos 96 El Universo y su evolución. se atraen gravitacionalmente, deberían finalmente colapsar. Sería extraño que un Universo finito en tamaño, donde los cuerpos se atraen gravitacionalmente fuera estático. Por otro lado, si el Universo fuera isotrópico, en todas partes igual a larga escala, la fuerza gravitacional que ejercería una mitad del Universo sobre un cuerpo sería infinita. Desde el desarrollo de la teoría general de la relatividad, cuestión que no puede detallarse aquí, se buscaron soluciones cosmológicas (aplicables al Universo entero), haciendo ciertas suposiciones. Es decir modelos que cumplen con el llamado principio cosmológico, que establece precisamente que: a grandes escalas el Universo es igual en todas partes, y en todas direcciones, es decir es homogéneo e isotrópico. (no hay lugares ni direcciones preferidas) Evidentemente esto no es cierto para pequeñas escalas, como lo muestran diversas y distintas estructuras que se observan en el Universo. Conjetura 1 Principio cosmológico : el Universo es homogéneo e isotrópico a escalas grandes. Tal solución de las ecuaciones de Einstein la lograron primero Alexander Friedmann en Rusia en 1923, el abate George Lemaitre en Bélgica en 1927 y posteriormente en forma independiente, los físicos norteamericanos Howard P. Robertson y A.G. Walker, conduciendo al llamado modelo de FriedmannRobertson-Walker de espacio tiempo. 6.2. La expansión del Universo. Del análisis del modelo de Friedmann-Robertson-Walker, se puede deducir matemáticamente, y fue hecho dos años antes de su comprobación experimental, que el Universo debería estar en expansión o más precisamente que el espacio está en expansión. Debe ser destacado que el mismo Einstein había deducido de sus ecuaciones, modelos de Universo que ya sea colapsaban o crecían, cuestión que el descartó modificando sus ecuaciones mediante la introducción de una cierta constante, llamada constante cosmológica y tiene el rol de introducir fuerzas ficticias en el modelo, cancelando la gravedad a distancias grandes, obteniendo lo que el creía tenía que ser: Universos estáticos. Dos cosas pueden decirse: primero el mismo Einstein reconoció que esta fue la mayor chambonada de su vida, y segundo que actualmente se han encontrado nuevas razones para considerar constantes cosmológicas. Vea por ejemplo, Scientific American, de Enero de 1999. (Revolution in Cosmology) 6.2 La expansión del Universo. 97 La expansión del Universo fue descubierta por el astrónomo norteamericano Edwin Hubble en los años 1926 a 1929. Se sabía en las dos décadas anteriores que muchas de las galaxias visibles aparentemente se alejaban del Sol. La velocidad de una galaxia como la de una estrella, acercándose o alejándose de nosotros se determina mediante el efecto Doppler de la luz (realmente aquí aplica un tipo especial de efecto Doppler cósmico). Las frecuencias de las líneas de emisión de los elementos presentes en el astro aparecen corridas hacia el rojo, en el caso que las galaxias se alejen, respecto de los mismos elementos en la Tierra. De allí se puede calcular la velocidad aparente de recesión de las Galaxias. La contribución mayor de Hubble consiste en haber determinado las distancias a esas galaxias, por medio de la observación de ciertas estrellas variables, encontrando una correlación muy simple: a mayor distancia corresponde una mayor velocidad aparente de alejamiento o recesión. De modo que si v representa la velocidad de una Galaxia y d su distancia, entonces v = H0 d. La constante H0 , llamada constante de Hubble se conoce en forma aproximada H0 = 70 km s−1 Mpc−1 . No hay evidencia experimental suficiente para asegurar que tal constante no depende del tiempo, siendo una cuestión abierta si el ritmo de expansión se mantendrá, aumentará o permanecerá constante. La unidad de distancia Mpc, llamada “Mega parsec” es un millón de parsec, el cual es la distancia que la luz recorre en 3,6 años. Es más, Hubble interpretó su correlación como una evidencia directa de la expansión homogénea del espacio. Para visualizarlo, imagine que las galaxias en línea recta son puntos marcados en un elástico que se estira. Las velocidades relativas aparentes de un punto respecto a otro evidentemente crecen en proporción directa con su distancia. Doble distancia, doble velocidad. Esta expansión del espacio podría imaginarse, aunque este es un modelo nada más, como si las galaxias fueran las pasas de un queque, el cual se expande. Así, las pasas se alejan todas, unas de otros, sin que realmente haya movimiento relativo de las pasas respecto del queque ni tampoco un centro de expansión. En otras palabras, es el espacio el que se expande y lo hace igual en todas partes, principio cosmológico, luego el Universo entero se expande. Por eso hemos remarcado el hecho que las velocidades de recesión son aparentes. De acuerdo al principio cosmológico, la cuestión debe ser igual en todas partes y 98 El Universo y su evolución. en todas direcciones, por lo cual la simetría del espacio tridimensional debe ser la simetría esférica, lo cual no significa que la forma del universo sea esférica. Por otro lado el principio de homogeneidad del espacio, implica que el Universo no podría tener un borde, puesto que los puntos de los bordes serían distintos a los demás. Eso tampoco significa que el Universo sea infinito 6.3. Propiedades generales del espacio tiempo. Por la utilización del principio cosmológico y la idea de la expansión del espacio, podemos deducir ciertas propiedades, considerando lo que se observa desde galaxias típicas, que siguen el proceso de expansión y no están afectas a perturbaciones de las distancias entre sí que sean efecto de atracciones locales gravitacionales. Estos observadores, que llamaremos observadores fundamentales, en su línea de Universo se alejan entre sí y ven el Universo de la misma forma. Para todos ellos, como no hay velocidades relativas, podemos suponer que el tiempo transcurre de la misma manera, tiempo que llamaremos tiempo cósmico. Es claro que transcurrido un tiempo t en nuestra galaxia, el hoy para nosotros, no podemos conocer el hoy de otras galaxias, dada la velocidad que tomaría a la luz en llegar a nosotros. Así cada observador recibe luz recibe rayos de luz de otras galaxias que se propagan en sus conos de luz del pasado. Las galaxias lejanas las observamos como eran mucho tiempo atrás, y sus velocidades de recesión que hoy día observamos eran las que ellas tenían mucho tiempo atrás, considerando el tiempo que la luz de ellas demora en llegarnos. Por otro lado, si el tiempo de vida de nuestro Universo es finito, o sea si el fue creado en algún instante, sólo nos puede llegar información de puntos hasta cierta distancia, en efecto, la velocidad de la luz por el tiempo de vida del Universo. 6.3.1. Diagramas espacio tiempo. Como se ha establecido, en ausencia de materia, el universo es plano, la luz se propaga en línea recta, y el ordenamiento de los eventos que ocurren es conveniente representarlos en un diagrama, espacio tiempo, donde se pueden mostrar sólo dos de las coordenada espaciales, digamos x, y, y preferiblemente una de ellas solamente. Así un objeto fijo en el origen, tiene como 6.3 Propiedades generales del espacio tiempo. t t línea de Universo de rayo luminoso línea de Universo de partícula fija. y x y x t línea de Universo de partícula móvil. y x 99 t cono de luz y x Figura 6.1: Líneas de Universo representación en el diagrama espacio tiempo, una línea, llamada línea de universo, que es todo el eje del tiempo t. Un punto que se mueve en el eje y con la velocidad de la luz tiene por representación, o línea de universo, una recta de pendiente t/y = 1/c. Tomaremos para las representaciones c = 1, de modo que la luz tendrá en estos diagramas líneas de Universo en 45o respecto al eje del tiempo. Otra partícula que naturalmente puede tener una solo una velocidad menor que c, tendrá una línea de universo, más cercana al eje del tiempo. Objetos extendidos sean representados consecuentemente representando las líneas de Universo de todos sus puntos. Por ejemplo, si un pulso luminoso es emitido en el origen y se mueve en el plano xy, una circunferencia que se expande en ese plano, tendrá sus líneas de Universo contenidas en un cono. Este cono, se denomina cono de luz. El cono de luz tiene importancia en la clasificación de los eventos que puedan ocurrir en ese sistema de referencia, y como veremos en la descripción de la geometría del espacio tiempo. De aquí en adelante, no mostraremos más el sistema de coordenadas, sino que solamente el cono de luz, estando implícito el hecho que su eje de simetría representa el tiempo propio a ese sistema. Así para cada evento, dibujaremos su cono de luz propio, del evento que ocurre en su vértice. Considere entonces las figura siguientes para explicar su contenido y que responde a la pregunta: ¿se pueden ordenar los eventos en el tiempo independientemente del observador? Primero si observamos eventos sobre nuestra línea propia de Universo, es decir eventos que ocurren en un mismo punto, la única relación que existe 100 El Universo y su evolución. línea de Universo de A B B A (a) A B A (b) (c) Figura 6.2: Conos de luz entre esos eventos es una separación temporal. Es decir, podemos ordenar los eventos por su orden de ocurrencia. ¿Es este orden absoluto o sólo válido nosotros ? La respuesta es que este orden es absoluto, válido para todos los observadores, aunque tengan otras líneas de Universo, si es que son observable. La razón es que la ocurrencia de ellos puede usarse para gatillar la ocurrencia de eventos que dejen una huella física, por ejemplo si para nosotros ocurre A antes que B, podemos escribir la palabra AB, bueno no hay dudas que todos los observadores verán escrita la palabra AB. No es tan simple la cosa si un evento A ocurre en nuestra línea de Universo ( en el origen) y otro evento B ocurre fuera (en el eje x), como se indica en la figura siguiente. Sin conocer la línea de Universo del evento B (por allí pasan muchas líneas de Universo, que corresponden a diversas velocidades que puede tener el sistema donde ocurrió B). Como se indica en la figura, sin perder generalidad podemos distinguir tres casos, B está dentro del cono de luz del futuro de A, está sobre el, o fuera, casos que llamaremos a,b y c. a En este caso, cuando B está dentro del cono de luz del futuro de A, es posible conectar A, con B con una línea de Universo de otro observador que viaja con velocidad menor que la de la luz (línea que une A con B), por lo tanto los eventos están sobre una misma línea de Universo y como explicamos entonces la ordenación temporal es absoluta. Para todos los observadores B ocurre después que B. Es en este caso en que puede haber relación de causa y efecto entre dos eventos. B, puede ser causado por A. Se dice además que entre estos eventos hay una separación se denomina intervalo tipo tiempo. b En este caso cuando B está sobre el cono de luz del futuro de A, es 6.4 Horizonte observable. 101 líneas de Universo (1) (2) (3) B A Figura 6.3: Intervalos posible conectar A, con B sólo con una línea de Universo de una señal luminosa (línea que une A con B). Se dice en este caso que los eventos están separados por un intervalo tipo luz. c En este caso, cuando B está fuera del cono de luz del futuro de A, no es posible conectar A, con B con una línea de Universo de otro observador que viaja con velocidad menor o igual que la de la luz. Por lo tanto A no puede influenciar B de ninguna forma. Se dice además que entre estos eventos hay una separación se denomina intervalo tipo espacio. La razón, que se explica en la figura siguiente, es que en este caso hay un observador para el cual los eventos están separados sólo espacialmente (1), es decir son simultáneos. En efecto considere la líneas de Universo (1),(2), y (3). Para (1) son simultáneos, para (2) A ocurre antes que B, para (3) A ocurre después que B. 6.4. Horizonte observable. Suponiendo que el Universo fue creado T tiempo atrás, nos puede estar llegando luz a lo más de una distancia R = cT , la que puede haber recorrido la luz desde el instante de su creación. Esa distancia máxima visible se denomina horizonte de partículas o visible. Los objetos que estén más lejanos simplemente no los podemos observar todavía. Ese horizonte visible crece precisamente con la velocidad de la luz, y decrece hacia el pasado con la misma velocidad. O sea en el pasado, la parte visible del Universo era mucho menor, y llegando a cero en el instante inicial. El tiempo de vida del Universo podría evaluarse si la velocidad de recesión de las galaxias se supone que ha sido siempre la misma, pues tendríamos por 102 El Universo y su evolución. la ley de Hubble v = H0 d, y si las distancias iniciales fueron cero, debemos tener d = vT entonces v = H0 vT, de donde se deduce que T = 1 ≈ 1500 millones de años. H0 De acuerdo al cálculo, la velocidad aparente de recesión de los objetos en el borde observable del Universo es la velocidad de la luz. De ello y de lo que ocurra más allá, no debemos preocuparnos. La velocidad de recesión es aparente, y los objetos más allá del borde aunque pueden tener una velocidad aparente mayor que la velocidad de la luz, no podemos observarlos aún. Estos cálculos ha supuesto que la velocidad de expansión ha permanecido constante a lo largo de la vida del Universo. La cuestión si ello es así, si está acelerando o desacelerando, sólo puede dilucidarse experimentalmente. Lo normal de esperar debido a la atracción gravitacional de todos los objetos del Universo, sería una desaceleración progresiva, pero no necesariamente revirtiendo la expansión. Ese es también un problema abierto hoy en día y su respuesta pasa por estimar la masa total del Universo. La primera pregunta, al parecer tiene una respuesta inesperada y sorpresiva. Recientes observaciones indicarían que la expansión estaría acelerando, cuestión que sólo podría explicarse por la presencia de una fuerza cosmológica repulsiva, lo cual ha llevado de nuevo a considerar la presencia de la constante cosmológica en las ecuaciones de Einstein. 6.4.1. El efecto Doppler cósmico. Una consecuencia de la expansión del espacio es que la longitud de onda de la luz crece en la misma proporción y por lo tanto su frecuencia disminuye. Como la energía de la luz (de los fotones) depende exclusivamente de su frecuencia, a medida que el Universo se expande, la luz va perdiendo energía, pasando progresivamente a medida que el tiempo transcurre hacia el rojo, infrarrojo, micro ondas, y consecuentemente enfriándose. 6.5 El modelo estándar del Big Bang. 6.4.2. 103 Radiación de fondo. De acuerdo a la teoría estándar del Big bang, en los primeros instantes, debido a las enormes temperaturas existentes en el Universo, la luz no podía propagarse debido a que la materia no estaba eléctricamente neutralizada. En el momento en que la materia se neutralizó mediante la formación de átomos neutros, denominada época de recombinación, se creó luz en todas partes, estimándose su temperatura de creación en alrededor de 3.000 o K. En 1956, dos ingenieros del Laboratorio Bell en los Estados Unidos, detectaron en sus radio telescopios un ruido que se recibía de todas partes del espacio, la llamada radiación de fondo, con una temperatura determinada en alrededor de 2.73 o K. Realizando cálculos mediante el efecto Doppler, se estimó que esa luz fue creada en una edad cósmica de alrededor de 200.000 años (a partir del cero). Esta es una de las mejores evidencias experimentales de la teoría del Big Bang. Esta época de recombinación, que ocurre alrededor de un tiempo de 200.000 años separa una fase opaca del Universo de la etapa actual, transparente. Es necesario destacar que la radiación de fondo fue predicha por los años 40 por George Gamov. 6.5. El modelo estándar del Big Bang. En la época actual de la expansión, las galaxias se alejan unas de otras, sin que ocurran mayores choques, la mayor parte de la radiación luminosa presente es de baja temperatura y densidad. La materia es hoy día lo dominante en el Universo. Pero en el pasado, las densidades y temperaturas que pueden extrapolarse son muchísimo mayores y cobran importancia otras formas de la materia. Para describir la evolución del Universo en sus primeros momentos, se requiere conocer el comportamiento de la materia a niveles extremos de temperatura y presión. El Universo al parecer nació como una “bola de fuego” de altísima densidad y temperatura y en una expansión muy rápida. Esto es ilustrativo solamente, no debe pensarse en una especie de explosión en un espacio pre existente. Si ello fuera así, la radiación de fondo estaría viajando junto con el límite del Universo, y no llegando desde todos los lugares, y a todos los lugares. Lo que se crea en el instante inicial, es todo, espacio, tiempo y materia. La radiación de fondo que nos está llegando hoy, proviene de puntos del espacio que hoy están muy lejos, aproximadamente cT , siendo T la edad del Universo, pero que al comienzo estaban muy juntos, 104 El Universo y su evolución. y antes no existían. De acuerdo al principio cosmológico esto es válido para todos los puntos del espacio, el cual por lo tanto no puede tener, ni haber tenido una frontera. El conocimiento más detallado se logra entonces mediante el conocimiento que se tiene sobre la partículas elementales. 6.6. Partículas elementales. En los primeros momentos, la materia estaba disociada en sus componente más íntimos, las llamadas partículas elementales. En la tierra, ellas se crean precisamente reconstruyendo las condiciones existentes en el Universo en los primeros tiempo, en experimentos que se realizan en los llamados laboratorios de alta energía. En la actualidad se cree que la materia, está constituida por dos grandes familias de partículas: los hadrones y los leptones, además de los fotones. Los hadrones son partículas compuestas, constituidas por quarqs, de los cuales hay seis tipos. En los hadrones se pueden distinguir dos familias, los bariones y los mesones. Los mesones son más livianos y son todos inestables. A su vez los bariones conforman dos clases: los nucleones, constituyentes del núcleo de los átomos (protones y neutrones) y los hiperones, más pesados e inestables. La clase de los leptones. que no participan en las interacciones de la fuerza fuerte, contiene sólo seis partículas conocidas: tres leptones. con carga eléctrica y tres neutrinos sin carga, que por lo cual no participan en las interacciones electromagnéticas. Las siguientes tablas muestran las diferentes familias de partículas 6.6 Partículas elementales. 105 Quarqs y antiquarqs. Nombre u (up) anti u d (down) anti d s (strange) anti s c (charmed) anti c b (bottom) anti b t (top) anti t masa 5 carga 2/3 -2/3 -1/3 1/3 -1/3 1/3 2/3 -2/3 -1/3 1/3 10 250 1500 4800 30.000? spin 1/2 1/2 1/2 1/2 1/2 1/2 1/2 1/2 1/2 1/2 1/2 1/2 num bariónico 1/3 -1/3 1/3 -1/3 1/3 -1/3 1/3 -1/3 1/3 -1/3 1/3 -1/3 Hadrones-nucleones. Nombre p (protón) anti p n (neutrón) anti n resonancia N, ∆, Λ, Ξ, Σ, Ω masa carga spin 938.21 1 1/2 -1 939.50 0 1/2 num. bariónico vida media 1 >1033 años -1 1 925 s -1 muy inestables >p,n Mesones. Nombre pión π − pión π + pión π 0 mesones masa 139.58 139.58 134.97 carga -1 1 0 spin 0 0 0 num. bariónico vida media 0 2.6×10−8 s 0 2.6×10−8 s 0 0.83×10−16 s muy inestables. 106 El Universo y su evolución. Leptones. Nombre e− electrón e+ positrón µ muón anti µ τ tau anti τ ν e neutrino e anti ν e ν µ neutrino µ anti ν µ ν τ neutrino τ anti ν τ masa 0.511 0.511 106 106 1780 1780 < 6 × 10−5 < 0,65 < 250 carga -1 1 -1 1 0 0 0 0 0 0 0 0 spin num. leptónico vida media 1/2 ∞ 1/2 1/2 2 × 10−6 s 1/2 1/2 2 × 10−13 s 1/2 1/2 ∞? 1/2 ∞? 1/2 ∞? 1/2 ∞? 1/2 ∞? 1/2 ∞? La masa está expresada en Mev/c2 . Partículas portadoras. No entraremos en más detalles, pero es necesario decir que las cuatro interacciones básicas señaladas al principio, se explica según la mecánica cuántica, mediante el intercambio de partículas virtuales portadoras o intermedias. Así la interacción electromagnética se manifiesta mediante intercambio de fotones. La interacción fuerte se manifiesta mediante el intercambio de gluones, la débil por el intercambio de bosones intermedios (W + , W + , Z 0 ) y la gravitacional se especula que mediante un gravitón. 6.7. 6.7.1. Los grandes periodos del Universo. Cosmología cuántica. Desde t = 0 , el inicio, hasta t = 10−43 s, las condiciones físicas de temperatura y presión son tan extremas, que no hay teoría aún que de cuenta de ese periodo. Antes de t = 10−43 s, el horizonte observable corresponde a dimensiones menores que al de una partícula. 6.7 Los grandes periodos del Universo. 6.7.2. 107 La era hadrónica. Este comprende el periodo comprendido entre t = 10−43 s y t = 10−4 s, donde por la expansión, la temperatura cae desde T = 1032 a 1012 o K, y la densidad cae desde 1094 a 1014 g/cm3 . El Universo está formado por una sopa, muy caliente de quarqs, antiquarqs, leptones. y sus antipartículas y fotones, en equilibrio con densidades similares. Cerca del fin de esta era, se produce un proceso esencial, la acción de las fuerzas gluónicas entre los quarqs los unen o confinan, formando los nucleones que existen hoy en día : protones y neutrones. Esto ocurre alrededor de t = 10−6 s. 6.7.3. La era leptónica. La época que se extiende desde t = 10−4 s hasta unos 10 s donde la temperatura desciende desde unos 1012 o K hasta unos 1010 o K. Durante ella sobreviven los nucleones escapados de la era hadrónica, junto a leptones, principalmente electrones y neutrinos. Hay en este periodo abundantes fotones que forman un mar de radiación bastante homogéneo. 6.7.4. La era radiativa y la núcleo síntesis. Esta época es dominada por la radiación, los fotones y durante ella se forman los elementos químicos primordiales. Se extiende desde unos 10 s hasta aproximadamente 200,000 años de la vida del Universo. La temperatura baja desde unos 1010 o K hasta unos 3000 o K. La materia es una mezcla de nucleones y electrones que nadan en un mar de fotones. Entre uno y quince minutos, cuando las temperaturas están en el orden entre 109 y 2 × 107 o K, se producen los primeros núcleos de átomos de elementos ligeros, Hidrógeno, Deuterio, Tritio y Helio. En un proceso competitivo entre la fuerza fuerte que los forman, y los choques con los fotones que los desarman, cada vez se forman más núcleos. Se supone que al fin de este proceso casi el 75 % es Hidrógeno y un 25 % es Helio. (El resto de los elementos químicos se formarán mucho después en las estrellas y en las supernovas). La era radiativa termina cuando los fotones cesan de interactuar con la materia. Esto ocurre cuando la temperatura baja a unos 3000 o K y los electrones se colocan en sus orbitales atómicos, formando átomos neutros. Este proceso de recombinación o desacoplamiento, marca el fin de la era radiativa. Así, el Universo se hace transparente a la luz, y esta radiación original es la que aún puede 108 El Universo y su evolución. ser observada, mucho más fría, como la radiación de fondo. 6.7.5. La era estelar. Es la época posterior a la edad de 200,000 años, hasta hoy. La temperatura del Universo ha bajado lentamente desde unos 3000 o K hasta unos 2,73 o K que es la temperatura actual de la radiación de fondo. Los mecanismos detallados que hacen que el Hidrógenos se acumule en ciertas regiones del espacio para dar lugar a la formación de estrellas, no se conocen, pero sin duda están gobernados por la fuerza gravitacional. quarqs, antiquarqs, leptones y sus antipartículas y fotones nucleones, leptones, principalmente 10−4 − 10s electrones y neutrinos. 10 s − 2 × 105 años nucleones, electrones, fotones 2 × 105 −hoy galaxias, estrellas. Hadrónica 10−43 − 10−4 s Leptónica Radiativa Estelar Capítulo 7 Matemáticas. Aunque sería deseable que en un curso introductorio a la física no se usara matemáticas, ello es difícil pues las matemáticas son la herramienta mediante la cual se formulan las leyes en física. Aunque trataremos de no usar matemáticas complicadas, ciertos elementos como la derivada e integral, son imprescindibles, asimismo la graficación y el cálculo numérico, por su aplicación a los métodos experimentales. Aquí trataremos diversos tópicos, cada cual con diversas aplicaciones, y sin rigor matemático. 7.1. Algunas funciones importantes. 7.1.1. La función exponencial. La función exponencial y = bx , donde b es la base, tiene un importante papel en Física. La base más importante es el número e que se define más adelante y se tienen las dos importantes propiedades bx by = bx+y , b0 = 1. 110 7.1.2. Matemáticas. El logaritmo. Si y = bx entonces x = logb y, que se lee logaritmo de y en base b. Todas las propiedades de esta función se deducen de las propiedades de la función exponencial bx . Por ejemplo de 1 = b0 con b > 0 se tiene que logb 1 = 0. Similarmente de b = b1 se deduce que logb b = 1. También si u = bx , v = by , entonces uv = bx+y , luego x + y = logb uv o sea logb uv = logb u + logb v. En particular para bases, 10 y e = 2. 718 3.. (el número e), se habla de logarítmos vulgares y naturales que se denotan con log(x) y ln(x) Entre otras 7.1 Algunas funciones importantes. 111 propiedades se tiene: log(AB) log Ax log 10 ln(e) log(10n ) logb a loga b ln(10) log(e) = = = = = = = = log A + log B, x log A, 1, 1, n, 1, 2,303 . . . 0,4343 . . . Ejercicio 7.1.1 Demuestre a partir de la definición del logaritmo que logb a loga b = 1. Ejercicio 7.1.2 Demuestre a partir de la definición de logaritmo que logb ac = c logb a. 7.1.3. El número e. El número e = 2. 718 281 828 46.., la base de los logaritmos naturales de define como un límite, el cual es µ ¶n 1 . e = lı́m 1 + n→∞ n La existencia de este límite, puede ser establecida estudiando la secuencia µ ¶n 1 an = 1 + n cuyos a1 a2 a3 a4 a5 primeros son ¡ ¢valores 1 = 1 + 11 = 2,0 ¡ ¢2 = 1 + 12 = 2. 25 ¡ ¢3 = 1 + 13 = 2. 370 370 370 37 ¢4 ¡ = 1 + 14 = 2. 441 406 25 ¡ ¢5 = 1 + 15 = 2. 488 32 112 Matemáticas. que muestra cierta tendencia, pero de lenta evolución. Ahora del teorema del binomio µ ¶n 1 n 1 n(n − 1) 1 n(n − 1)(n − 2) 1 1+ =1+ + +··· , + n 1! n 2! n2 3! n3 se deduce µ ¶n (1 − n1 ) (1 − n1 )(1 − n2 ) 1 1 1+ + + ··· , =1+ + n 1! 2! 3! y tomando el límite puede obtenerse e=1+ 1 1 1 + + + ··· 1! 2! 3! la famosa expansión en serie del número e, que converge más o menos rápidamente como se muestra a continuación 1 + 1!1 = 2,0 1 + 1!1 + 2!1 = 2. 5 1 + 1!1 + 2!1 + 3!1 = 2. 666 666 666 67 1 + 1!1 + 2!1 + 3!1 + 4!1 = 2. 708 333 333 33 1 + 1!1 + 2!1 + 3!1 + 4!1 + 5!1 = 2. 716 666 666 67 1 + 1!1 + 2!1 + 3!1 + 4!1 + 5!1 + 6!1 = 2. 718 055 555 56 1 + 1!1 + 2!1 + 3!1 + 4!1 + 5!1 + 6!1 + 7!1 = 2. 718 253 968 25. Como una curiosidad se presentan algunas de las fórmulas donde aparece el número e, de la vasta diversidad de ellas e=3− Z e 1 eπ 1 4− . 2 5− 3 4 6− 7−··· dx = 1. x √ −1 = −1. √ √ ex −1 = cos x + −1 sin x. √ 1 + · · · ). n! = 2πnnn e−n (1 + 12n ¿Podrá usted probar alguna de ellas? 7.2 Sumatorias. 7.2. 113 Sumatorias. La suma de n términos a1 , a2 , · · · an será representada por a1 + a2 + a3 + · · · + an = 7.2.1. n X ai . i=1 Sumatorias notables. Se deja como ejercicio probar que n X i=1 n X i=1 n X i=1 rn+1 − r r−1 1 i = n (n + 1) 2 1 i2 = n (n + 1) (2n + 1) 6 n X i=1 7.3. ri = 1 i3 = n2 (n + 1)2 4 Gráficos. Por su importancia se trata este tema, de las diversas formas de ilustrar gráficamente el comportamiento de una función de una variable y = f (x). Este símbolo indica que a cada valor de la variable independiente x existe un valor numérico (real o complejo) de la función, denotado por y = f (x). Ejemplos y = Ax + B función lineal, A y B son constantes. y = AeBx función exponencial, A y B son constantes. y = A + B ln x función logarítmica, A y B son constantes. y = Ax2 + Bx + C función polinomial de grado 2 y = A sin x función sinusoidal. −cx y = Ae cos x función cosenoidal amortiguada. función potencia. y = AxB 114 Matemáticas. Aunque existen diversas herramientas para analizar la conducta de una función, tal vez lo más ilustrativo consiste en hacer un gráfico de ella. Para ello, las diversas constantes que puedan aparecer deben tener valores numéricos, generando gráficos para un valor, o familias de gráficos para diversos valores de ellas. Existen además diversas posibilidades para los ejes del dibujo, la escala de ellos puede ser uniforme, igual o distinta en cada eje. La escala puede ser logarítmica en los dos ejes (gráficos log-log) o en uno de ellos, (gráficos semi-log). En ingeniería incluso se usan gráficos con escalas que varían de acuerdo a alguna determinada función, si ello resulta conveniente. Hay diversos factores que inciden en la decisión de qué tipo de escala utilizar, algunos de los cuales explicaremos. Una de las escalas no uniformes más utilizada es la escala logarítmica. La escala logarítmica se construye de acuerdo a los valores de los logarítmos, siendo suficiente considerar la tabla de los valores de los logarítmos entre 1 y 10: 1 2 3 4 5 6 7 8 9 10 0 0,3010 0,4771 0,6021 0,6990 0,7782 0,8451 0,9031 0,9542 1,0000 En la figura siguiente se ilustra en papel log − log con dos periodos de escala logarítmica en el eje x y uno en el eje y. 7.3 Gráficos. 115 papel log-log un periodo en el eje y 10 1 1 2 3 4 5 6 7 8 9 10 20 30 40 50 60 70 80 90100 dos periodos en el eje X papel log-log. La propiedad log(10n ) = n hace que sea necesario conocer la escala logarítmica en un periodo solamente, pues en los otros hay un desfase de un número entero de unidades. Así por ejemplo log(200) = log 2+2, log(0,002) = log 2 − 3, etcétera. 7.3.1. Correlación lineal : y = Ax + B (la línea recta). Si datos (x, y) provenientes de un experimento se ajustan a ese modelo, con constantes desconocidas, entonces su gráfico con escalas uniformes en ambos ejes es el más apropiado, pues en ese caso resulta una línea recta, como se indica en la figura.De la figura se deduce que el intercepto B = 14 y la pendiente obtenida de los puntos de coordenadas (0, 14) y (8, −12) será A= 14 + 12 = −3. 25, 0−8 de modo que el modelo ajustado será y = −3,25x + 14 116 Matemáticas. Correlación lineal 15 10 Y 5 0 -5 -10 -15 0 2 4 6 8 X Figura 7.1: Correlación lineal. 7.3.2. Decaimiento con b < 0 (o crecimiento si b > 0) exponencial : y = yo ebx . Si los datos (x, y) provenientes de un experimento se ajustan a este modelo, entonces ln y = ln A + Bx, de modo que en un gráfico semi-log los datos caerán sobre una línea recta. Realizado el gráfico, el de la figura, entonces del gráfico se deducen los valores de las constantes y0 y b. En efecto,del valor yA = 5 correspondiente a x = 0, se deduce que y0 = 5. Además se observa que xC = 3,9, yC = 0,002, xB = 0,8, yB = 1 y dado que yC = eb(xC −xB ) , yB se deduce que b= ln( yyBC ) , xC − xB ln(0,002) = −2. 00 b= 3,9 − 0,8 de modo que el modelo ajustado a los datos será y = 5e−2x . 7.3 Gráficos. 117 A B Decaimiento exponencial 1,000 Y 0,100 0,010 0,001 0 1 2 3 X 4 5 C Figura 7.2: Decaimiento exponencial. Mediante el método de los mínimos cuadrados, se encuentra la mejor recta cuando los puntos experimentales no caen exactamente sobre una línea recta. 7.3.3. Modelo potencia y = AxB . En este caso si tomamos logaritmos se obtiene log y = log A + B log x, de modo que si los datos se ajustan a este modelo, la relación entre los logaritmos es lineal. El gráfico más adecuado a esta situación si el propósito es determinar las constantes del modelo, debe hacerse en un papel con escalas logarítmicas en ambos ejes, como se compara en los gráficos siguen. Primero en escalas uniformes segundo en papel log-log: Como para x = 1, y = 5 y para x = 4, y = 10 resultará A = 5, log y2 − log y1 log 10 − log 5 B = = 0,5 = log x2 − log x1 log 4 − log 1 de modo que el modelo ajustado es y = 5x0,5 118 Matemáticas. Modelo potencia Y 20 10 0 1 2 3 4 5 6 7 8 9 10 X Figura 7.3: Modelo potencia, Modelo potencia Y 10 1 1 10 X Figura 7.4: En papel log-log 7.3 Gráficos. 119 Ajuste de dos exponenciales Bx 1000 Y Dx A) y=Ae +C 100 10 0 2 4 A)-B) Bx B) y=Ae 6 8 10 12 14 X Figura 7.5: Dos exponenciales. 7.3.4. Modelo con dos exponenciales: y = Aebx + Cedx . En un gráfico semi− log, los datos están graficados en la curva (A). Para valores grandes de x, si los parámetros B y D son diferentes, a la larga predomina uno de los exponenciales, lo cual se hace evidente en el gráfico porque la curva tiende a ser línea recta. (la línea (B)) dibujada tangente a los datos. Si se restan los datos (A) con los de la recta (B), se tiene una línea recta que representa a la otra exponencial. De la figura hemos obtenido los siguientes valores numéricos aproximados: x 0 4 12 yA 300 95 31 yB yA − yB 112 187 73 22 31 de los cuales se deducen A = 112, y B= log 73 − log 112 = −0. 107 (4 − 0) log e 120 Matemáticas. y de los datos para la diferencia C = 187 y D= log 22 − log 187 = −0. 54, (4 − 0) log e resultando entonces para el modelo de dos exponenciales y = 112e−0,107x + 187e−0,54x . 7.4. Ejercicios. Ejercicio 7.4.1 La tabla siguiente corresponden a las concentraciones de alcohol en la sangre, en función del tiempo a partir de su ingestión t (min) 90 120 150 180 210 240 270 conc. (mgDL−1 ) 134 120 106 93 78 65 50 Grafique los datos y establezca un modelo del proceso metabólico del alcohol. Ejercicio 7.4.2 Grafique las funciones y = 10e−0,1x , y = 5x0,6 , y = 10e−0,1x + 20e−0,8x en papel con escalas uniformes y en papel con escalas más adecuadas. Ejercicio 7.4.3 Los datos siguientes corresponden a un experimento ficticio donde se determinaron dos variables t, y. 7.5 Derivadas. 121 t 0 1 2 3 4 5 6 y 4.85 2.943 1.785 1.083 0.857 0.398 0.241 Determine un modelo para estos datos, y = y(t). Suponga ahora que y representa la cantidad de una substancia radioactiva que se descompone, determine el tiempo que en hay la mitad de la cantidad inicial. Ejercicio 7.4.4 Si usted deposita una cantidad inicial M de dinero el cual gana mensualmente un interés α (tanto por uno) se pide realizar un gráfico semi logarítmico del monto de dinero acumulado en función del número de meses para M = 100, α = 0,1. Ejercicio 7.4.5 El número e, la base de los logarítmos naturales se define como 1 e = lı́m (1 + )N = 2,7182818 . . . N−→∞ N Calcule entonces el límite x lı́m (1 + )N N−→∞ N 7.5. Derivadas. Si se considera una función de una variable y = f (x) su gráfico con escalas uniformes es una curva, genéricamente como la que se ilustra en la figura. En ella se indican dos puntos cercanos (1) y (2), se ha dibujado la tangente a la curva en el punto (1) y la cuerda del punto (1) al punto (2). Una medida de la tasa de crecimiento promedio de la función en el intervalo (x1 , x2 ), puede ser definida por la razón y2 − y1 . x2 − x1 Si nos imaginamos que los dos puntos están muy cerca, y en caso límite x2 se acerca a x1 hasta confundirse con el, podemos observar que 122 Matemáticas. tangente en (1) Derivada 70 2 60 función y=f(x) y2-y1 50 1 Y 40 x2-x1 30 20 10 0 0 2 4 6 8 10 12 14 X Figura 7.6: Tangente y derivada. la cuerda 1-2, se aproxima y se confunde con la tangente a la curva. La hipotenusa del triángulo indicado en la figura se confunde con la tangente a la curva. El triángulo rectángulo señalado se hace de lados cada vez menores, cero en el caso límite. 1 Es claro que la razón xy22 −y es la tangente del ángulo que hace la cuerda −x1 con el eje x, cualquiera que sea el tamaño de los catetos del triángulo. (Note que aquí tan θ=sin θ/ cos θ) Se deduce entonces que el límite cuando x1 tiende a x2 , lo que se escribe como y2 − y1 lı́m x2 −→x1 x2 − x1 existe y es igual a la tan(θ) del ángulo que forma la tangente a la curva en el punto (1) con el eje x. Tal límite se llama la derivada de la función en el punto x1 y se denota por f 0 (x1 ) = lı́m x2 −→x1 y2 − y1 f (x2 ) − f (x1 ) = lı́m . x2 − x1 x2 −→x1 x2 − x1 7.6 Diferenciales. 7.6. 123 Diferenciales. El diferencial de una función, correspondiente a un cambio ∆x de su variable independiente se define por df (x) = f 0 (x)∆x. Como además la derivada de y = f (x) = x respecto a x es evidentemente f 0 (x) = 1, se trata de una recta inclinada en 45o , entonces dx = ∆x, y en consecuencia, la derivada de una función es igual al cuociente de los diferenciales de la función y de la variable independiente x, o sea f 0 (x) = df (x) . dx Como se observa en la figura siguiente el diferencial de la función, nos indica la variación de la función desde un punto inicial hasta la recta tangente a la curva, cantidad que no es necesariamente pequeña. En todo caso, esto permite tratar a las derivadas como cuociente de diferenciales. El proceso límite implícito en la definición de derivada, se ha hecho para las funciones más importantes, tabulando esos resultados. Esas tablas, junto a unas pocas reglas, permiten calcular la derivada de prácticamente cualquier función. Un fragmento de tabla es f (x) xa ln(x) ex ag(x) + bh(x) f (g(x)) sin x cos x f (x)g(x) f 0 (x) axa−1 1 x x e ag 0 (x) + bh0 (x) f 0 (g(x))g0 (x) cos x − sin x f 0 (x)g(x) + f (x)g0 (x) f (x) g(x) f 0 (x)g(x)−f (x)g 0 (x) g 2 (x) a tan x cot x 0 sec2 x − csc2 x 124 Matemáticas. Ejercicio 7.6.1 Demuestre a partir de la definición de derivada que d cos x dx d sin x dx dex dx dxa dx d ln x dx = − sin x, = cos x; = ex ; = axa−1 , = 1 . x Ejercicio 7.6.2 Considere la función y = xe−x . Realice su gráfico. Como usted podrá observar, hay un valor máximo de la función. Si se considera que un máximo o mínimo está caracterizado por ser la recta tangente en esos puntos horizontal, es decir con ángulo de inclinación cero y por lo tanto derivada nula, determine la ubicación del máximo y su valor. Ejercicio 7.6.3 Considere una función (desconocida) de la cual se sabe que su tasa de crecimiento instantánea, la derivada respecto al tiempo, es proporcional a la función, es decir dy = ky. dt Si usted redefine la escala del tiempo mediante τ = kt puede obtener una relación más simple. Por inspección de la tabla de derivadas, determine las funciones y(t) que satisfacen la relación anterior. (si usted lo hace, ha tenido éxito en resolver una ecuación diferencial, es decir ha integrado sin saberlo) Ejercicio 7.6.4 Mediante el uso de la tabla (y algo más) determine la derivada de y = ax . 7.7. 7.7.1. Integrales. El área bajo una curva. Si se tiene una función y = f (x), planteamos el problema de determinar el área entre la curva representativa de la función y el eje X, entre los valores x1 7.7 Integrales. 125 f(x) 1 2 N 3 x1 x2 Figura 7.7: Area bajo la curva. y x2 . Una aproximación a la solución de este problema consiste en aproximar el área por una suma de rectángulos como se indica en la figura. Si el intervalo de x1 a x2 lo llenamos con N rectángulos que lleguen hasta la curva, entonces los anchos de los rectángulos serán d= x2 − x1 , N las abcisas de sus vértices inferiores izquierdos serán xi = x1 + (i − 1)d, i = 1, 2, . . . , N o xi = x1 + (i − 1) x2 − x1 , N i = 1, 2, . . . , N entonces el área A será aproximadamente A≈ N X i=1 f (xi ) x2 − x1 . N Como puede observarse, el error que se comete debido a que los rectángulos tienen un déficit o exceso de área respecto a la curva, se hará cero si tomamos el límite haciendo que los anchos de los rectángulos tiendan a cero. Eso se 126 Matemáticas. logra tomando el límite N → ∞, es decir A = = 7.7.2. lı́m N→∞ lı́m N→∞ N X i=1 N X i=1 f (xi ) x2 − x1 N f (x1 + (i − 1) x2 − x1 x2 − x1 ) , N N La integral definida. El último límite se denomina la integral definida de la función entre x1 y x2 y se representa por Z x2 A= f (x)dx. x1 Como veremos el cálculo de este límite puede hacerse pues está relacionado con el concepto de derivada. Ejemplo 7.7.1 Calcule el área bajo la curva y = x2 entre x1 = 0 y x2 = x. Solución. Debemos en este caso evaluar A = lı́m N→∞ N X i=1 N X X x2 − x1 x2 − x1 2 x2 − x1 = lı́m ) , f (xi ) (x1 + (i − 1) N→∞ N N N i=1 N N x2 x x3 X (i − 1) 2 = lı́m 3 (i − 1)2 , = lı́m N→∞ N→∞ N N N i=1 i=1 = Pero 2 N−1 x3 X 2 i. N→∞ N 3 i=1 lı́m Pn i=1 i2 = 16 n (n + 1) (2n + 1) de modo que x3 1 (N − 1)N (2N − 1) , N→∞ N 3 6 µ ¶ 1 1 31 , = lı́m x (1 − ) 2 − N→∞ 6 N N 1 3 = x. 3 A = lı́m 7.7 Integrales. 127 f(x) x a x+∆x Figura 7.8: Elemento de área. Resulta entonces que hemos logrado calcular una integral, es decir Z x 1 x2 dx = x3 . 3 0 N 7.7.3. Relación con la derivada. Considere la integral A(x) = Z x f (x)dx. a Esto es el área bajo la curva entre a y x. Esta puede ser considerada una función de x y por lo tanto la podemos derivar respecto a x. Si usamos la definición de derivada entonces (A(x + ∆x) − A(x)) dA(x) = lı́m . ∆x→0 dx ∆x El numerador es una diferencia de áreas y si ∆x es pequeño, esa área será la del rectángulo f (x)∆x, ver figura de modo que (A(x + ∆x) − A(x)) ∆x→0 ∆x f (x)∆x = lı́m = f (x). ∆x→0 ∆x dA(x) = dx lı́m 128 Matemáticas. Este notable resultado muestra que Z x d f (x)dx = f (x), dx a o sea que la integración es la operación inversa de la derivada. O sea que el cálculo de una integral se hace buscando que función tiene por derivada f (x). Como las derivadas de las constantes son cero, esta búsqueda queda indeterminada en una constante aditiva, por ejemplo Z x x4 +C 4 x3 dx = a siendo C una constante. Esa constante puede evaluarse considerando que Z a x3 dx = 0, a de modo que resulta C=− Finalmente Z x x3 dx = a 7.7.4. a4 . 4 x4 a4 − . 4 4 Resultado final. Todo lo dicho se puede resumir en que la integral definida tiene la propiedad Z x f 0 (x)dx = f (x) − f (a). a 7.7.5. La integral indefinida. La operación inversa de la derivada se denomina integral indefinida, es decir Z f 0 (x)dx = f (x) 7.8 Elementos de cálculo numérico. 129 Ejercicio 7.7.1 Compruebe que Z Z Z 7.8. xn+1 xn dx = n+1 Z dx = ln x x si n 6= −1 sin xdx = − cos x cos xdx = sin x. Elementos de cálculo numérico. La física trata con ecuaciones (relaciones entre cantidades físicas) que si se resuelven, constituyen la solución de un determinado problema. Esto es en teoría, pues hay muchas ecuaciones que no pueden resolverse en forma analítica. Basta recordar el caso de las ecuaciones algebraicas, que son solubles analíticamente hasta el caso de grado cuatro. En física es célebre el problema de los tres cuerpos, que tampoco admite en general solución analítica. Sin embargo, la solución numérica es siempre factible, con determinado grado de precisión y alcance. De algunos de estos métodos trata esta sección. 7.8.1. Método de Newton para el cálculo de una raíz. Considere la ecuación f (x) = 0. La búsqueda analítica de las raíces, los valores de x para los cuales la función se anula, es en general imposible. Las excepciones son por ejemplo, ecuaciones algebraicas hasta cuarto grado. O casos como sin x = 0, cuyas Doppler se encuentran por simple inspección x = nπ con n entero. Considere la figura:La raíz buscada es x. Uno puede estimar un valor inicial x1 , trazar la recta tangente a la curva en el punto x1 , su intersección con el eje se produce en x2 que está más cercano (en general) a la raíz que el punto inicial. O sea x2 es una mejor aproximación a la raíz buscada. Luego repita el proceso partiendo del punto x2 . De la definición de derivada se tiene que f 0 (x1 ) = 0 − f (x1 ) ,(la tangente del ángulo) x2 − x1 130 Matemáticas. Método de Newton 25 20 15 10 f(x1 ) Y 5 0 x1 -5 x x2 -10 -15 -20 -25 0 2 4 6 X Figura 7.9: Método de Newton. entonces f (x1 ) . f 0 (x1 ) Cuestión que debe ser repetida obteniendo aproximaciones sucesivas a la raíz, hasta la precisión deseada. x2 = x1 − Ejemplo 7.8.1 Determine una raíz de cosx = x. Solución. Dado que f (x) = cos x − x, entonces f 0 (x) = − sin x − 1 y la fórmula se reduce a cos x1 − x1 x2 = x1 + . sin x1 + 1 Si partimos de una adivinanza inicial (radianes) x1 = 1, entonces sucesivos valores dan x2 x3 x4 x5 = = = = . 750 363 87, . 739 112 89, . 739 085 13, . 739 085 13. Con 8 decimales en unos pocos cálculos. 7.8 Elementos de cálculo numérico. 131 y=x 1,0 f(x1) 0,8 f(x2) y 0,6 0,4 0,2 y=cos(x) x3=f(x2) 0,0 0,0 0,5 x1 1,0 x2=f(x1) 1,5 2,0 x Figura 7.10: Iterar. N 7.8.2. Método iterativo para determinar una raíz de f (x) = x. Este método tiene éxito en algunos casos como explicaremos. Considere el gráfico de la función y = f (x) y el gráfico de la función y = x. El punto donde se cortan determina la raíz. El método consiste en partir de una adivinanza inicial x1 , y calcular sucesivos valores x2 = f (x1 ), x3 = f (x2 ), . . .. En el caso de la figura para cos x = x, se observa que esos valores se aproximan cada vez más a la intersección. Sea un valor inicial x1 = 1, cos 1 = 0. 540 3,entonces: cos 0. 540 3 = 0. 857 6, cos 0. 857 6 = 0. 654 3, valores que oscilan, pero que a la larga se aproximan al mismo valor 0.739 09, aunque mucho más lentamente que en el método de Newton. La convergencia dependerá del ángulo en que se intersectan la curva y = f (x) e y = x. Si ese ángulo es mayor de π/2 no hay convergencia. 132 Matemáticas. 2 (2) Y 1 X1 0 X2 (1) raiz -1 aproximación -2 0,0 0,5 1,0 1,5 2,0 X Figura 7.11: Método de la secante. 7.8.3. Método de la secante. La idea de este método es muy simple. Si se conocen do puntos tales que en ellos las función f (x) tiene diferente signo, por ejemplo f (x1 ) < 0 y f (x2 ) > 0, entonces (para funciones continuas) en algún punto intermedio la función debe anularse. La recta que va desde el punto (1) al punto (2) corta el eje x más cerca de la raíz buscada, como se ilustra en la figura siguiente:Como la recta pasa por los puntos (1) y (2) su ecuación es (verifíquelo) y = f (x1 ) + f (x2 ) − f (x1 ) (x − x1 ) x2 − x1 y el punto donde ella corta el eje x (la aproximación) satisface f (x1 ) + de donde f (x2 ) − f (x1 ) (x − x1 ) = 0, x2 − x1 x2 − x1 f (x2 ) − f (x1 ) x1 f (x2 ) − x2 f (x1 ) . x = f (x2 ) − f (x1 ) x = x1 − f (x1 ) 7.8 Elementos de cálculo numérico. 133 Este proceso debe ser repetido hasta alcanzar la precisión deseada, eligiendo entre nuevos valores iniciales, (x1 , x) o (x, x2 ) según en cual pareja hay cambio de signo de la función. 7.8.4. Derivada numérica con dos puntos. Para cálculos numéricos, con precisión limitada, no es necesario tomar el límite en la definición de derivada, sino basta tomar un valor pequeño del incremento ∆x = h. Así entonces podemos aproximar dy f (x + h) − f (x) = f 0 (x) = , dx h con h pequeño. El valor de h depende de la exactitud deseada. Por ejemplo sea h = 0,00001, y calculemos la derivada de y = f (x) = xe−x ln x en el punto x = 2. Resultará f (2 + h) − f (2) = 0,0 415 3, h que usted puede comprobar es correcto en todos sus decimales. Debemos decir que existen métodos mejores pero involucran conocer o evaluar la función en más de dos puntos, por lo cual para cálculos aproximados es más simple usar lo indicado. f 0 (2) = 7.8.5. Derivada con más puntos. Las siguientes fórmulas (Handbook of Mathematical functions de Abramowitz) indican la forma de obtener la derivada con tres o cuatro puntos correspondientes a abscisas igualmente espaciadas en una cantidad pequeña h. Tres puntos, p = −1, 0, 1. 1 f (x0 + ph) = h 0 ¾ ½ 1 1 (p − )f−1 − 2pf0 + (p + )f1 . 2 2 134 Matemáticas. Cuatro puntos, p = −1, 0, 1, 2 f 0 (x0 + ph) = 7.8.6. 1 3p3 − 6p + 2 3p2 − 4p − 1 3p2 − 2p − 2 − f−1 + f0 − f1 h 6 2 2 3p2 − 1 f2 . + 6 Un ejemplo. Las fórmulas anteriores tienen especial aplicación por ejemplo cuando se determinan experimentalmente los desplazamientos de una partícula en función del tiempo y se desea calcular la velocidad y la aceleración. En los laboratorios de física es común estudiar el movimiento de una partícula o un cuerpo, determinando los tiempos en que ella pasó por determinadas posiciones. La tabla siguiente indica los tiempos t en que una partícula pasó por las posiciones x (igualmente espaciadas) y se han determinado las velocidades y aceleraciones usando dos métodos (dos y tres puntos), utilizando una planilla de cálculo, Excel por ejemplo, para que usted compare. Los datos tienen probablemente errores, lo cual tiene un enorme efecto en el cálculo de las derivadas, velocidades y aceleraciones. En este ejemplo los datos han sido generados por una función conocida, en el ejemplo x = v0 t + 12 at2 , pero a los tiempos determinados se les ha introducido un error al azar de magnitud máxima error %, para simular el efecto de los errores experimentales. (Para efectos de comparación, la velocidad debería resultar lineal v0 + at). Veamos que ocurre. Para este ejemplo se ha elegido h = dx = 0, 015, v0 = 10, a = −10, error en t 0, 1 % y se gráfica la derivada hecha con tres puntos, y a continuación se ha repetido el cálculo y graficado la velocidad para un error 0 %. y a continuación para 0 % de error introducido en t. Como usted podrá apreciar, los errores influyen notablemente en el cálculo de la derivada, lo cual queda de manifiesto muy claramente al usar por ejemplo datos provenientes de la captura de tiempos de interrupción hechos mediante la llamada polea inteligente (que por supuesto no es inteligente). Eso lo verá usted en el curso de Física experimental I cuando haga experimentos de este tipo y le pida al programa un gráfico de la velocidad en función del tiempo. Dejamos al lector aventurar una respuesta a cómo solucionar este problema. 7.8 Elementos de cálculo numérico. dx 0,015 x 0,0000 0,0150 0,0300 0,0450 0,0600 0,0750 0,0900 0,1050 0,1200 0,1350 0,1500 0,1650 0,1800 error en t % 0,1 v0 10 a -10 t 0,00000 0,00150 0,00300 0,00451 0,00602 0,00753 0,00904 0,01056 0,01207 0,01359 0,01511 0,01664 0,01816 t con error 0,00000 0,00150 0,00301 0,00451 0,00602 0,00753 0,00905 0,01055 0,01208 0,01360 0,01511 0,01662 0,01817 135 dos puntos dx/dt 9,9955 9,9622 9,9562 9,9714 9,9153 9,8964 9,9395 9,8523 9,8393 9,9302 9,9359 9,7191 Figura 7.12: Tabla. dx/dt error 0,1% en t 10,00 dx/dt 9,95 9,90 9,85 9,80 -0,002 0,000 0,002 0,004 0,006 0,008 0,010 0,012 0,014 0,016 0,018 t Figura 7.13: Con errores. tres puntos dx/dt 10,0123 9,9789 9,9457 9,9997 9,9433 9,8875 9,9836 9,8957 9,8093 9,9273 9,9330 9,9388 136 Matemáticas. dx/dt error 0,0% en t 10,00 dx/dt 9,95 9,90 9,85 9,80 -0,002 0,000 0,002 0,004 0,006 0,008 0,010 0,012 0,014 0,016 0,018 t Figura 7.14: Ejemplo. 7.9. Ejercicios. Ejercicio 7.9.1 Determine numéricamente una (o dos) raíz de las ecuaciones algebraicas x3 − x + 1 = 0, ( R: x = −1. 324 718), x5 − x + 1 = 0, ( R. x = −1. 167 304), x6 + x − 1 = 0, (R. x = −1. 134 724 1, x = 0. 778 089 6) Ejercicio 7.9.2 Determine numéricamente una (o dos) raíz de las ecuaciones trascendentales x = e−x (R: x = 0. 567 143 29), x = e−2x , (R: x = 0. 426 302 75), cos x = 2x, {R: x = 0. 450 183 61} . Ejercicio 7.9.3 (Investigación) Considere la regla de iteración xn+1 = µxn (1 − xn ). 7.9 Ejercicios. 137 Con 2, 5 < µ < 4, partiendo de un valor cualquiera x1 y un determinado µ genere valores sucesivos x1 , x2 , . . .hasta que ellos comiencen a repetirse. Esquemática en un gráfico esos valores obtenidos en función de µ para valores de µ en el intervalo señalado. Si usted tiene éxito, ha obtenido el diagrama de bifurcaciones de la función logística, que ha sido tema de mucha investigación que se muestra en la figura siguiente. Figura 7.15: Logística. Ejercicio 7.9.4 (Investigación) Respecto a la situación del problema anterior, si se hacen cálculos muy cuidadosos, pueden obtenerse los valores del parámetro µ para el cual ocurren las bifurcaciones. Si llamamos a estos valores µ1 , µ2 , µ3 , µ4 . . . , estudie la tendencia que tienen las razones µn+1 − µn µn − µn−1 Ejercicio 7.9.5 Demuestre que la sumatoria N X 1 n n=1 diverge si N → ∞. 138 Matemáticas. Ejercicio 7.9.6 Demuestre que N X 1 − ln(N + 1) n n=1 converge a un número si N → ∞ y estime ese valor numérico. Ese número es la famosa constante γ de Euler. Capítulo 8 Elementos de probabilidades 8.1. Introducción Es una experiencia cotidiana que si un experimento se realiza un número de veces bajo las “mismas controlables” condiciones, los resultados son en general diferentes, aun cuando las diferencias pueden ser pequeñas. Cada experimento se realiza tratando de mantener las mismas condiciones. En el mundo macroscópico en realidad no estamos en condiciones de controlar todas las variables que afectan al fenómeno por lo tanto uno puede pensar que los diversos resultados se deben precisamente a la falta de control de algunas de las variables que influyen en los resultados. Por ejemplo el ruido de los dispositivos electrónicos, fluctuaciones incontrolables de una fuente de voltaje, variaciones imperceptibles de la temperatura, etcétera. Sin embargo, con el desarrollo de la Mecánica Cuántica (¿qué será eso?), se ha aceptado que esto es un aspecto intrínseco de nuestro Universo, es decir que aún cuando las condiciones se mantengan absolutamente iguales, pueden haber diversos resultados de un mismo experimento, no adjudicables a variables no controladas o no conocidas. Estos hechos fueron motivo de mucha controversia en los inicios del desarrollo de la Mecánica Cuántica, siendo célebre la Conferencia de Solvay en Bruselas en 1927, ver foto, donde Albert Einstein se enfrentó al resto del Mundo de los físicos, tratando de salvar el determinismo clásico, de acuerdo al cual, bajo mismas condiciones, se repiten los mismos resultados y que cualquier discrepancia debería ser debida a causas no consideradas. Sin 140 Elementos de probabilidades Figura 8.1: Conferencia de Solvay de 1927 embargo Einstein finalmente aceptó que los hechos indicaban fuera de duda, la validez de este nuevo tipo de incertidumbre en el determinismo clásico. 8.2. Tómelo con calma. En este capítulo, hay demasiada matemática que usted probablemente no conoce aún, pero la conocerá. De modo que no se preocupe demasiado por las demostraciones y trate de quedarse de alguna manera con el concepto, pues en la evaluación de este curso no se exigirán estas cuestiones. De todas maneras se presentan algunos detalles matemáticos complicados con la esperanza que estos apuntes le sirvan más en el futuro. 8.3. Cosas concretas. Para que esta discusión no le parezca demasiado abstracta, ejemplos simples concretos se encuentran en los juegos de azar, por lo cual analizaremos algunos, antes de introducir definiciones formales más abstractas. 8.3 Cosas concretas. 8.3.1. 141 Lanzar un dado. Como usted debe saber al lanzar un dado hay seis resultados posibles, que salga cualquiera de los números del 1 al 6. Si usted idea un método para predecir el resultado que va a ocurrir, debería felicitarlo. Repita este experimento, digamos 100 veces y anote los resultados que se obtienen. Una manera de resumir la información obtenida es contando cuantas veces salió cada resultado, y mejor calcular la fracción del total en que ocurrió cada resultado. Estos resultados “experimentales” difícilmente coincidirán con los de otra realización de 100 lanzamientos. Aquí no queda más remedio y especular que para un número muy grande de lanzamientos todos los resultados deberían ocurrir en la misma proporción. Esta conjetura podrá ser sostenida hasta que existan serias discrepancias con ella. (En tal caso lo que uno podría pensar es que el dado está cargado). 8.3.2. Lanzar un dardo a un blanco. Estrictamente hablando, aquí no se trata realmente de un juego de azar, pero ocurre algo parecido. Los distintos resultados, puntos de caída del dardo se distribuirán en forma continua cerca del blanco, pero de una forma que no somos capaces de predecir. (La excepción se daría si existiera un lanzador perfecto) 8.3.3. Lanzar dos dados. A diferencia del lanzamiento de uno, el conjunto de resultados posibles es ahora mayor, en efecto ellos son 36 resultados distintos posibles. Sin embargo uno puede estar interesado no en los resultados distintos, sino por ejemplo en los resultados que sumen siete. Ahora los que suman siete son (1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1), o sea 6 casos de un total de 36. Seguramente usted apostaría a que el resultado siguiente no va a sumar 7. Usted seguramente 6 concordará en que las chances son 6 de 36, o bien 36 = 0. 166 7, número muy pequeño que lo desalentará en la apuesta. Estas ideas se formalizan estructurando la teoría de las probabilidades. 142 8.4. 8.4.1. Elementos de probabilidades Probabilidad Población o Universo El conjunto continuo o discreto de todos los distintos resultados xi de un experimento la denominaremos la población o el Universo asociado al determinado experimento (Usualmente llamado espacio muestral, pero no queremos confundir con muestras o grupos de datos, por ello usaremos la terminología explicada). Este conjunto puede ser finito para el caso de resultados discretos, pero necesariamente infinito cuando los resultados son un continuo de valores. En este libro preferiremos el empleo del término resultado del experimento, por tratarse de un libro sobre Física, aun cuando puede y eventualmente se ocupará el término más amplio de Evento, a lo que ocurre tras la realización de algún experimento, de cualquier tipo. 8.4.2. Eventos simples Los elementos del Universo o Población se denominan eventos simples. (por ejemplo los resultados del lanzamiento de un dado) 8.4.3. Eventos compuestos Cualquier subconjunto del Universo o Población se denomina un evento compuesto. Por ejemplo, ver figura, los subconjuntos A, B, A∪B, A∩B, etcétera. (por ejemplo los casos en que la suma de los dos dados es 7) 8.4.4. Probabilidad, caso discreto Eventos simples Aunque es posible hacer un tratamiento axiomático del concepto de probabilidad, seguiremos un proceso más cercano a la experimentación. Supongamos que el Universo es de tamaño finito M. Si al repetir un experimento N veces el evento o resultado xi ocurre ni veces, la frecuencia relativa de ocurrencia de dicho resultado se define como ni fi = , N y si tal expresión tiene un límite cuando N → ∞, entonces definimos la probabilidad. 8.4 Probabilidad 143 Definicion 8.4.1 Definimos la probabilidad del evento simple xi por ni . N→∞ N Pi = lı́m De la definición se desprende que M X Pi = 1. i=1 Este tipo de definición de probabilidad es a veces llamada “a posteriori” o “empírica”, a diferencia de otra definición que está basada en algún tipo de razonamiento. Por ejemplo si no se encuentran causas para suponer que un determinado evento debería ocurrir con distinta frecuencia que otro, uno podría suponer en consecuencia que todas las probabilidades son iguales y por lo tanto 1 Pi = . M Este tipo de definición es a veces denominada “probabilidad a priori”. Debemos remarcar que las teorías de la física que utilicen el concepto de probabilidad, utilizan probabilidades a priori, estando su definición comprometida según sean la comprobación experimental de las predicciones de la respectiva teoría. Eventos compuestos Recordemos que los elementos de conjunto Universo corresponden a los distintos posibles resultados de un experimento. Estos son los que hemos llamados eventos simples. Las probabilidades de estos eventos las hemos llamado Pi y tienen la evidente propiedad M X Pi = 1. i=1 Cualquier subconjunto A del Universo es denominado un evento compuesto. Su probabilidad se define por PA = X xi ∈A Pi . 144 Elementos de probabilidades A B A B C Figura 8.2: Evento unión A ∪ B y evento intersección A ∩ B La unión o intersección de dos subconjuntos del universo, es también un subconjunto del universo o sea es un evento compuesto. Sus probabilidades pueden relacionarse de acuerdo a PA∪B = PA + PB − PA∩B , pues, de acuerdo a la figura (??), si los subconjuntos A y B tienen intersección vacía, al sumar las probabilidades de A y de B obtenemos correctamente la probabilidad de la unión. Sin embargo si la intersección no es vacía, al realizar lo anterior estamos contando dos veces los elementos de la intersección. Restando en ese caso los elementos de la intersección una vez, se obtiene el resultado correcto. A veces, la probabilidad de la unión puede leerse como : “la probabilidad de que el simple esté en A o en B” y similarmente para el caso de la intersección, “la probabilidad de que el simple esté en A y en B” Eventos independientes, probabilidad condicional Queremos definir dos conceptos que juegan un rol muy importante en teoría de probabilidades. El concepto de probabilidad condicional toma en cuenta el efecto (si lo hay) de que el saber que ocurrió un determinado evento A, afecta o no la probabilidad del siguiente evento B. Definicion 8.4.2 Definimos la probabilidad condicional P (B | A) como la probabilidad de que ocurra el evento B si sabemos que el evento A ocurrió. 8.4 Probabilidad 145 Definicion 8.4.3 Dos eventos A y B se denominan independientes, si la ocurrencia de uno no afecta la probabilidad del otro, es decir si P (B | A) = P (B) y P (A | B) = P (A). La forma en que la ocurrencia de un evento puede afectar la ocurrencia de otro, puede deberse a diversas causas, dependiendo del experimento de que se trate. Ejemplo 8.4.1 Por ejemplo se tiene un conjunto de bolitas numeradas del 1 al 5 en una caja. El experimento puede ser sacar una bolita al azar, mirar el resultado y reponerla en la caja o no reponerla en la caja. Analice esta situación. Solución. Para el primer caso obviamente el primer evento no afecta al siguiente. O sea si el experimento es con reposición, los eventos son independientes y todos tienen probabilidad P = 15 . De modo que por ejemplo 1 1 1 P (1 | 1) = , P (2 | 1) = , · · · , P (5 | 1) = . 5 5 5 Si el experimento es sin reposición, claramente la ocurrencia de una evento afecta los siguientes, de modo que tendremos por ejemplo 1 1 P (1 | 1) = 0, P (2 | 1) = , · · · , P (3 | 1) = . 4 4 ¿Como podemos establecer alguna regla? Claramente tenemos un problema de hacer bien las cuentas. Para eventos simples hay simplemente dos posibilidades. Para el experimento sin reposición P (A ∩ B) puede ser cero o no dependiendo de que no hayan o hayan eventos simples comunes en A y en B. Obviamente el Universo para el experimento en cuestión es con reposición 1, 1 2, 1 3, 1 4, 1 5, 1 1 P (1 ∩ 2) = 25 P (1 | 2) = 15 P (2) = 15 notando que P (1 | 2) = 1, 2 2, 2 3, 2 4, 2 5, 2 P (1∩2) P (2) N 1, 3 2, 3 3, 3 4, 3 5, 3 1, 4 2, 4 3, 4 4, 4 5, 4 1, 5 2, 5 3, 5 4, 5 5, 5 146 Elementos de probabilidades sin reposición − 2, 1 3, 1 4, 1 5, 1 1, 2 1, 3 − 2, 3 3, 2 − 4, 2 4, 3− 5, 2 5, 3 1, 4 2, 4 3, 4 − 5, 4 1, 5 2, 5 3, 5 4, 5 − 1 P (1 ∩ 2) = 20 P (1 | 2) = 14 P (2) = 15 notando que P (1 | 2) = PP(1∩2) (2) Debe remarcarse la diferencia entre P (1 ∩ 2) que es la probabilidad de la ocurrencia del 1 seguido por el 2 respecto al total de resultados posibles, mientras que P (1 | 2) está restringido al universo remarcado, donde el primer evento fue un 2. Aunque no será demostrado nada aquí, los resultados del ejemplo pueden ser enunciados como una relación entre estas probabilidades de la siguiente forma, que realmente constituye la definición de probabilidad condicional: Definicion 8.4.4 P (B | A) = P (A ∩ B) P (B) Como una consecuencia de la definición de eventos independientes, sigue otro teorema: I Teorema 8.1 Si dos eventos A y B son independientes, entonces P (A ∩ B) = P (A)P (B). 8.5. Sacar cuentas. Para el cálculo de probabilidades normalmente deben sacarse cuentas del total de eventos o resultados, y de los casos favorables. Para ello son de utilidad los siguientes conceptos. 8.5 Sacar cuentas. 8.5.1. 147 Concepto básico de multiplicación. Si un procedimiento A puede hacerse de nA maneras diferentes y si procedimiento B puede hacerse de nB maneras diferentes, para cada forma en que se hizo el primero, entonces el procedimiento A seguido por el B puede hacerse de nA × nB maneras diferentes. Ejemplo 8.5.1 Si se elige un comité sorteando un hombre de un grupo de seis y una mujer de un grupo de tres, el comité puede formarse de 6 × 3 = 18 maneras diferentes. 8.5.2. Permutaciones. Si se tiene un grupo de n objetos diferentes, el número de distintos ordenes en que puede formarse el grupo de n objetos es el número de permutaciones P (n) = 1 × 2 × 3 × · · · × n = n! El símbolo n! (llamado ene-factorial), admite una famosa aproximación para n grande, llamada aproximación de Stirling √ n! ≈ 2πnnn e−n Ejemplo 8.5.2 Por ejemplo con los números 1, 2, 3 hay 6 diferentes ordenes, a saber (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1). En efecto 3! = 6. 8.5.3. Combinaciones. Si se tiene un grupo de n objetos diferentes y se extrae de el un grupo de m ≤ n objetos, sin importar el orden, el número de formas de hacerlo es llamado el número de combinaciones y está dado por µ ¶ n n! = . m m!(n − m)! Este número es también llamado coeficiente binomial dada su relación con el teorema del binomio el cual establece que, el binomio elevado a n tiene el desarrollo: µ ¶ µ ¶ µ ¶ µ µ ¶ ¶ n n n n−1 n n−2 2 n n n n n−1 (a + b) = + a + a b+ a b +···+ ab b 0 1 2 n−1 n 148 Elementos de probabilidades Ejemplo 8.5.3 Por ejemplo, de un grupo de 10 personas, el número de formas en que se puede constituir un comité de 4 personas es µ ¶ 10 10! 7 × 8 × 9 × 10 = = = 210. 4 6!4! 1×2×3×4 Ejemplo 8.5.4 Se lanza N veces una moneda al aire. Si la ocurrencia de caras o sellos es igualmente probable, determine la probabilidad de que ocurran n sellos. Solución. El número de casos favorables de que ocurran n sellos es µ ¶ n . m Por otro lado, el total de casos está dado por (0 ó 1 ó 2 n sellos) m=n Xµ m=0 ¶ n , m ahora bien, esta suma se puede deducir del teorema del binomio para el caso en que a = 1, b = 1 obteniéndose m=n Xµ m=0 ¶ n = 2n , m por lo tanto la probabilidad buscada es µ ¶ 1 n P = n . 2 m Para tener una idea del comportamiento de esta probabilidad, realice un gráfico para n = 10 con los valores de la 8.6 Variables aleatorias 149 distribución binomial con p=q=0,5 n=10 0,25 probabilidad 0,20 0,15 0,10 0,05 0,00 0 1 2 3 4 5 6 7 8 9 10 numero m Figura 8.3: Distribución binomial. m P ¡ ¢ 1 10 = 9. 766 × 10−4 0 210 ¡ 0 ¢ 1 10 1 = 9. 766 × 10−3 210 ¡ 1 ¢ 1 10 2 = 4. 395 × 10−2 210 ¡ 2 ¢ 1 10 3 = . 117 2 210 ¡ 3 ¢ 1 10 = . 205 1 4 210 ¡ 4 ¢ tabla 1 10 = . 246 1 5 210 ¡ 5 ¢ 1 10 = . 205 1 6 210 ¡ 6 ¢ 1 10 = . 117 2 7 210 ¡ 7 ¢ 1 10 = 4. 395 × 10−2 8 210 ¡ 8 ¢ 10 1 9 = 9. 766 × 10−3 210 ¡ 9 ¢ 1 10 10 210 10 = 9. 766 × 10−4 N cuyo gráfico se muestra a continuación 8.6. Variables aleatorias Nos limitaremos a analizar experimentos donde los resultados son valores numérico xi , por ahora discretos, con una probabilidad conocida Pi . Podemos 150 Elementos de probabilidades decir por definición que el resultado del experimento es una variable aleatoria x con distribución de probabilidad P (x) definida por P (x) = Pi si x = xi P (x) = 0 en otro caso. Ejemplos de variables aleatorias discretas pueden ser Ejemplo 8.6.1 x el número de caras que pueden ocurrir al lanzar n veces una moneda. De acuerdo a lo explicado µ ¶ 1 n P (x) = n si x = m(≤ n) 2 m P (x) = 0 en otro caso. Ejemplo 8.6.2 x el resultado obtenido al arrojar un dado. Aquí 1 si x ∈ (1, 2, 3, 4, 5, 6) 6 P (x) = 0 en otro caso. P (x) = 8.6.1. Distribución binomial. Si un experimento tiene dos resultados posibles A y B, con probabilidad p y q = 1 − p cada uno, y el experimento se repite n veces, la probabilidad de que ocurran m resultados A, en cualquier orden es la famosa distribución binomial. µ ¶ n m n−m P (m) = p q , m muchas de sus propiedades serán dadas en el apéndice (B). Por sus aplicaciones a la teoría de los errores preferiremos profundizar en los casos en que la variable aleatoria es continua. 8.6 Variables aleatorias 8.6.2. 151 Caso continuo Cuando los posibles resultados experimentales son un continuo de valores, el universos obviamente es de tamaño infinito. Por ello deben hacerse algunas modificaciones formales, pero no de fondo, a lo explicado para el caso discreto. Así por ejemplo es posible definir (a priori o a posteriori) la probabilidad de que el resultado este dentro de algún subconjunto del universo, preferiblemente en un elemento infinitésimo del universo. Para un caso unidimensional., el universo puede ser un intervalo de los números reales entre x1 y x2 . Obviamente la definición de probabilidad debe ser tal que haya certeza de que resulte algún valor del Universo, es decir P ([x1 , x2 ]) = 1, (8.1) donde la notación expresa la probabilidad de que el resultado del experimento sea alguno de los valores posibles x ∈ [x1 , x2 ]. Para un intervalo diferencial dx en torno de x, la probabilidad correspondiente será definida mediante P ([x, x + dx]) = f (x)dx, siendo f (x) la llamada función de distribución de la variable aleatoria x. Aquí, por algún medio será preciso postular o determinar f (x). Funciones de distribución de variable aleatoria Aquí profundizaremos algo de lo recién explicado. Sea x una variable aleatoria resultado de algún experimento con resultados en un continuo, el intervalo [x1 , x2 ] . La probabilidad de que la variable esté en un entorno dx del valor x, se define por P ([x, x + dx]) = f (x)dx, siendo f (x) la función distribución de la variable aleatoria x. Por la propiedad 8.1, las funciones distribución están normalizadas, es decir Z x2 x1 f (x)dx = 1. 152 Elementos de probabilidades Algunos ejemplos Ejemplo 8.6.3 Distribución uniforme. La función distribución uniforme, corresponde a elegir un número real al azar dentro de un intervalo y está dada por 0 si x<α 1 si α < x < β f (x) = β−α 0 si x>β donde α < β son dos números reales α β Ejemplo 8.6.4 Un generador simple de números (seudo) aleatorios. Considere la secuencia generada de acuerdo a xn+1 = 4xn (1 − xn ), donde dado un número (semilla) x1 entre 0 y 1, se generan todos los siguientes en el mismo intervalo. Construya numéricamente la función distribución de tal secuencia de números. Para ello, divida el intervalo (0, 1) en un número de partes, por ejemplo 100, y cada vez que el número resulte en un intervalo i (1 ≤ i ≤ 100) agregue 1 a un contador ni inicialmente en cero. Grafique enseguida las razones ni /N, siendo N el número total de cuentas. La siguiente gráfica se obtuvo para un número de 100 intervalos y 20.000 generados. Un generador simple de números (seudo) aleatorios. Considere la secuencia generada de acuerdo a xn+1 = 4xn (1 − xn ), 8.6 Variables aleatorias 153 0,07 Distribución logística intervalos = 100 generados = 20.000 0,06 0,05 n/N 0,04 0,03 0,02 0,01 0,00 20 40 60 80 100 intervalo Figura 8.4: Aleatorios. donde dado un número (semilla) x1 entre 0 y 1, se generan todos los siguientes en el mismo intervalo. Construya numéricamente la función distribución de tal secuencia de números. Para ello, divida el intervalo (0, 1) en un número de partes, por ejemplo 100, y cada vez que el número resulte en un intervalo i (1 ≤ i ≤ 100) agregue 1 a un contador ni inicialmente en cero. Grafique enseguida las razones ni /N, siendo N el número total de cuentas. La siguiente gráfica se obtuvo para un número de 100 intervalos y 20.000 generados.Esta gráfica muestra claramente que la distribución no es uniforme. Ejemplo 8.6.5 La función distribución normal, dependiente de dos parámetros µ (el valor esperado) y σ ( la desviación estándar) es definida mediante (x−µ)2 1 f (x; µ, σ) = √ e− 2σ2 , σ 2π que ha veces se abrevia N(µ, σ). Ejemplo 8.6.6 La función distribución normal estándar, es un caso particular donde µ = 0 y σ = 1, es decir x2 1 f (x) = √ e− 2 2π 154 Elementos de probabilidades o abreviado N(0, 1), cuyo gráfico característico - llamado “campana de Gauss” se ilustra en la figura siguiente: 0.3 0.2 0.1 2 x √1 e− 2 2π -4 0 -2 2 x 4 Campana de Gauss. Ejemplo 8.6.7 Si la rapidez de fallas de algún dispositivo es constante a lo largo del tiempo, entonces los tiempos de fallas tienen una distribución de probabilidad exponencial con valor esperado µ f (t; µ) = 1 −t/µ e µ para u ≥ 0 donde e es la base de los logarítmos naturales. La desviación estándar para la distribución exponencial es σ = µ. (ver gráfico) 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 5 10 u 15 20 25 µ = 5, Exponencial La deducción de tal función distribución se muestra para quien se interese en el apéndice (A). 8.6 Variables aleatorias 155 Figura 8.5: Distribución de Poisson. Ejemplo 8.6.8 El proceso de Poisson. La distribución de Poisson juega un papel importante para un gran número de fenómenos observables. Consideremos una fuente radioactiva que emite partículas α y definamos una variable aleatoria X(t1 , t2 ) como el número de partícula emitidas durante un intervalo de tiempo [t1 , t2 ] . Denotaremos tal función de distribución por Pn (t1 , t2 ) = P [X(t1 , t2 ) = n] . (que se lee como “la probabilidad de que en el intervalo de tiempo entre t1 y t2 el número de partículas emitidas sea n”). En el apéndice de (B) se indican los detalles matemáticos que conducen a Pn (t) = 1 (λt)n e−λt n! o P (n, t) = 1 (λt)n e−λt n! que graficaremos para λ = 0,5 , n = 0, 1, 2, 3. Las definiciones de valor esperado, varianza y desviación estándar se dan a continuación. 156 8.6.3. Elementos de probabilidades Valor esperado, varianza y desviación estándar Si x es una variable aleatoria continua en el rango [x1 , x2 ] con función distribución de probabilidad f (x), se definen Definicion 8.6.1 El valor esperado de x, E(x) también denotado por µ, se define por Z x2 xf (x)dx. E(x) = µ = x1 Definicion 8.6.2 La varianza de x, V ar(x) también denotada por σ 2 se define por Z x2 2 V ar(x) = σ = (x − µ)2 f (x)dx. x1 Definicion 8.6.3 La desviación estándar de x se define como σ = p V ar(x). Puede verificarse fácilmente que para la función distribución normal, efectivamente se cumple que Z ∞ (z−µ)2 1 ze− 2σ2 dz, µ= √ σ 2π −∞ y que 1 σ = √ σ 2π 2 Z ∞ z 2 e− (z−µ)2 2σ 2 dz. −∞ Para la distribución uniforme puede calcularse 1 µ= β−α y 1 σ = β−α 2 Z β α Z β α 1 xdx = (α + β), 2 1 x2 dx = (β 2 + αβ + α2 ). 3 Distribuciones de probabilidad acumuladas Para el caso de variables aleatorias continuas, la probabilidad de un valor exacto es evidentemente cero, pues hay infinitos casos posibles. Se utilizan en cambio acumulaciones de probabilidad, por ejemplo 8.6 Variables aleatorias 157 Caso 1 La distribución de probabilidad normal acumulada Z x (z−µ)2 1 F (x; µ, σ) = √ e− 2σ2 dz σ 2π −∞ que indica la probabilidad de que la variable aleatoria z con distribución normal N(µ, σ) tenga valores menores o iguales a x. Caso 2 La distribución de probabilidad normal acumulada Z x (z−µ)2 1 e− 2σ2 dz F (x; µ, σ) = √ σ 2π −x que indica la probabilidad de que la variable aleatoria z con distribución normal N(µ, σ) tenga valores entre − x y x. Algunas propiedades Si x es una variable aleatoria con función distribución de probabilidad f (x), y si a, b y c son constantes, los siguientes desarrollos serán de utilidad E(ax + b) = Z x2 (ax + b)f (x)dx = aE(x) + b. x1 V ar(cx) = = Z x2 Zx1x2 x1 (cx − E(cx))2 f (x)dx (cx − cµ))2 f (x)dx = c2 V ar(x). Similarmente, si x es una variable aleatoria con función distribución de probabilidad f (x), y si a, b son constantes, la función de distribución g(z) de z = ax + b, puede calcularse de g(z)dz = f (x)dx, de modo que 1 z−b g(z) = f ( ). (8.2) a a Algún cuidado adicional se requiere si z no es una función monótona de x, como se explica al final de este capítulo. 158 8.6.4. Elementos de probabilidades Funciones de variables aleatorias Un problema de mucho interés es el de determinar la función distribución de una combinación de variables aleatorias, cuando se conocen las distribuciones de cada variable y si ellas son independientes en el sentido explicado anteriormente. Esto tiene muchas aplicaciones como veremos. Por ejemplo si las variables xi £(i = 1,¤2, · · · N) son independientes con distribución uniforme en el intervalo − µ2 , µ2 , ¿cual es la distribución de la variable aleatoria N 1 X xi x= √ N i=1 en el límite para N muy grande? Este es un caso de mucho interés y en el apéndice (C) se explican algunos desarrollos matemáticos para quien se interese, pero nos interesa principalmente el resultado final. Como allí se demuestra, la función distribución resulta ser la distribución normal x2 1 f (x) = √ e− 2σ2 , 2πσ o sea, tenemos un teorema que es lo que importa: I Teorema 8.2 Si las variables xi son aleatorias e independientes con distribución uniforme con valor esperado µ = 0 y desviación estándar σ, entonces la variable aleatoria N 1 X √ xi x= N i=1 tiene, para N −→ ∞ distribución normal x2 1 f (x) = √ e− 2σ2 . 2πσ De acuerdo a las propiedades 8.2, si las variables aleatorias xi tuvieran valor esperado µ 6= 0, entonces las variables aleatorias zi = xi − µ tiene valor esperado 0, de modo que la variable z tiene la distribución anterior. 8.6 Variables aleatorias 8.6.5. 159 Función distribución del promedio Por su importancia, considere ahora variables xi aleatorias e independientes con distribución uniforme con valor esperado µ, desviación estándar σ, entonces la variable aleatoria (el promedio) x̄ = 1 X xi N tiene una distribución que nos proponemos calcular, en el límite de N muy grande. Para ello considere 1 1 1 X x̄ = √ √ (xi − µ) + µ = √ x + µ N N N donde ahora x tiene la distribución normal con valor esperado cero. Por las propiedades señalada √ √ F (x̄)dx̄ = f (x)dx = Nf ( N(x̄ − µ)dx̄ o sea √ 2 N − N (x̄−µ) F (x̄) = √ e 2σ2 , 2πσ que puede ser escrita como 2 donde σ x̄ = ma: √σ N (x̄−µ) − 1 F (x̄) = √ e 2σ2x̄ , 2πσ x̄ y que puede ser escrito entonces como un importante teore- I Teorema 8.3 Si las variables xi son aleatorias e independientes cada una con distribución uniforme con valor esperado µ, desviación estándar σ, entonces la variable aleatoria (el promedio) 1 X x̄ = (8.3) xi N en el límite de N grandes, tiene distribución normal N(µ, σ x̄ ) 2 (x̄−µ) − 1 e 2σ2x̄ F (x̄) = √ 2πσ x̄ 160 Elementos de probabilidades con valor esperado E(x̄) = µ, y desviación estándar σ σ x̄ = √ . N Como veremos, este teorema es fundamental para el tratamiento de errores cuando se supone que ello son aleatorios. Por las propiedades explicadas, para utilizar la distribución normal estándar N(0, 1),es preferible utilizar la variable estandarizada Z que se define a continuación, pues ella tiene desviación estándar unidad y valor esperado cero. Z= x̄ − µ √ , σ/ N pues podemos usar la correspondiente tabla de valores centrales o inferiores a un valor Rz Rz 2 2 z F (z) = √12π −∞ e−t /2 dt. F (z) = √12π −z e−t /2 dt. 1 0. 841 34 0. 682 69 2 0. 977 25 0. 954 5 3 0. 998 65 0. 997 3 4 0. 999 97 0. 999 94 los valores numéricos, áreas bajo la curva de Gauss, son las probabilidades de que la variable estandarizada tenga valores menores que z, o entre −z y z respectivamente. De acuerdo a la figura la probabilidad de que la variable z tenga valores entre −∞ y 1 es 0,8413. En este otro caso la probabilidad de que la variable z tenga valores entre −1 y 1 es 0,6826. Ejemplo 8.6.9 Se han hecho 100 lecturas xi de una variable aleatoria con distribución uniforme, resultados de un experimento, y ha resultado un valor promedio x̄ = 12,8, siendo la desviación estándar de cada resultado el valor σ = 0,5. Estime las probabilidades de que el valor esperado del promedio esté en determinados rangos en torno al valor x̄ = 12,8. Solución. Primero que nada algunas aclaraciones. El promedio de los 100 valores es lo que se denomina el promedio muestral. Lo que se desea es el valor esperado del promedio considerado como una variable aleatoria, es decir µ. Dicho valor es naturalmente imposible de conocer con exactitud, pues el Universo para este experimento es de tamaño infinito. Además, se 8.6 Variables aleatorias Figura 8.6: Area menor que z. Figura 8.7: Area entre −1 y 1. 161 162 Elementos de probabilidades ha proporcionado como información la desviación estándar de cada medida, valor que tampoco podríamos en la práctica conocer por las mismas razones. Más adelante, en el capítulo sobre estadística, explicaremos como se puede estimar algún valor para σ examinando muestras finitas, como es el caso aquí. Aclarado esto, la solución basada en que la variable Z tiene distribución normal estándar (aproximadamente para muestras grandes), se tiene por ejemplo que la probabilidad de que Z esté en el intervalo [−1, 1] es 0,68269, es decir con esa probabilidad podemos asegurar que −1 < o bien x̄ − µ √ < 1, σ/ N √ √ x̄ − σ/ N < µ < x̄ + σ/ N, o numéricamente 12,8 − 0,05 < µ < 12,8 + 0,05 resultado que suele escribirse como µ = 12,8 ± 0,05 con una probabilidad de un 68,3 %. También se utiliza el término de intervalo de confianza del 68,3 % al intervalo [12. 75, 12. 85]. Debe observarse que hay dos factores que compiten. Si se desea aumentar el nivel de confianza (la probabilidad), ello causa un ensanchamiento del intervalo de confianza. Ello puede ser compensado aumentando el número N de medidas, √ pues ello tiende a disminuir el ancho del intervalo de confianza como 1/ N. N Una parte de los resultados √ anteriores, El resultado de que la desviación estándar del promedio es σ/ N, puede ser obtenido directamente, usando propiedades del valor esperado. En efecto si x̄ = entonces E(x̄) = 1 X xi , N 1 X 1 X E(xi ) = µ = µ, N N 8.6 Variables aleatorias 163 y · X ¸2 1 xi − µ ), = E( N aquí hay que cuidar sobre la independencia de las variables, pues al desarrollar ¸2 · X 1 xi − µ , N σ 2x̄ resulta 2µ X 1 XX x − x xi + µ2 , i j N2 N2 donde debemos separar la suma doble en los términos cuadráticos pues involucran variables dependientes, de los otros de la siguiente forma 1 X 2 X 2µ X ( x + x x ) − xi + µ2 , i j N2 i i N i i6=j por lo tanto σ 2x̄ = X 1 X 2µ X 2 E(xi ) + µ2 , ( E(x ) + E(x )E(x )) − i j i N2 N i6=j que se reduce a 1 (NE(x2 ) + (N 2 − N)µ2 ) − 2µ2 + µ2 , N2 o bien finalmente a ¢ σ2 1 ¡ E(x2 ) − µ2 = . N N Más en general, puede demostrarse el teorema más fuerte, llamado teorema del límite central, que colocamos aquí sin demostración. σ 2x̄ = I Teorema 8.4 (Central del límite) Sean xi una sucesión de variables aleatorias independientes con funciones distribuciones arbitrarias con valores finitos para sus valores esperados E(xi ) = µi y varianzas V ar(xi ) = σ 2i , entonces la variable Pn i=1 (xi − µi ) Zn = p , Pn 2 i=1 σ i tiene distribución normal N(0, 1) en el límite n −→ ∞. 164 8.6.6. Elementos de probabilidades Muestras pequeñas Recuerde que si N es grande, la variable Z indicada, Z= x̄ − µ √ , σ/ N tiene distribución N(0, 1). Sin embargo dado que la desviación estándar de la distribución es desconocida, se suele estimarla mediante σ = sn−1 , es decir usando la desviación estándar insesgada de la muestra, siendo 1 X = (xi − x̄)2 . n − 1 i=1 n s2n−1 Sin embargo, el estadígrafo t= x̄ − µ √ , sn−1 / n considerado como una variable aleatoria debe tener una función distribución distinta a la normal, pues ahora no más se puede considerar a sn−1 una constante, sino que es también una variable aleatoria. Fue el estadístico inglés W.S.Gosset quién descubrió la función distribución de la variable t, denominada distribución hk (t) denominada distribución t de Student con k grados de libertad. (Su trabajo fue publicado con el seudónimo de “Student”) hk (t) = ) Γ( k+1 t2 −(k+1)/2 2 √ ) , − ∞ < t < ∞. (1 + k Γ( k2 ) πk El término grados de libertad, corresponde al número de variables aleatorias independientes presentes en el estadígrafo considerado. Para el caso de sn−1 están involucradas las n variables aleatorias xi − x̄, pero ellas no son todas independientes, pues hay una relación entre ellas X (xi − x̄) = 0, de modo que para ese caso hay n − 1 grados de libertad, por lo tanto la distribución de x̄ − µ √ , t= sn−1 / n 8.6 Variables aleatorias 165 es hn−1 (t) = Γ( n2 ) t2 −n/2 p ) (1 + , −∞ < t < ∞. n − 1 Γ( n−1 ) π(n − 1) 2 (8.4) De aquí puede obtenerse como límite para n −→ ∞ t2 1 lı́m hn−1 (t) = √ e− 2 , n−→∞ 2π la distribución N(0, 1). Su gráfico para n = 5, 10, 15, y su límite se indica a continuación 0.3 0.2 0.1 -4 -2 0 2 t 4 Distribución T-Student. 8.6.7. Más sobre funciones distribución (fd) Este tema requiere también de mucha matemáticas, por lo tanto usted puede omitirlo. Unidimensional. Cuando una variable x aleatoria continua tiene una fd conocida, interesa determinar la fd de funciones de x. Por ejemplo si la variable x√tiene distribución uniforme, cuales son las funciones distribución de x2 , de x, etcétera. Para esto se presenta un teorema. I Teorema 8.5 Sea x una variable aleatoria continua con fd f (x), donde por supuesto debe ser f (x) no negativa. Suponga además que y = h(x) es una función estrictamente monótona (creciente o decreciente) y derivable, entonces la fd de la 166 Elementos de probabilidades variable y está dada por ¯ ¯ ¯ ¯ ¯ ¯ ¯ dx ¯ 1 −1 ¯ ¯. ¯ ¯ g(y) = f (x) ¯ ¯ = f (h (y)) ¯ 0 −1 dy h (h (y)) ¯ Aquí h0 denota la derivada de h y h−1 denota la función inversa de h que por las condiciones consideradas, existe. Demostración. Esto sigue de g(y) |dy| = f (x) |dx|, debiéndose expresar x en función de y mediante x = h−1 (y). La función inversa existe por cuanto la función h(x) es monótona. N Si la función h(x) es continua, derivable, pero no monótona ( su derivada se anula en el rango), entonces debemos tener más cuidado. Por ejemplo suponga una variable x con distribución uniforme en el intervalo [−1, 1] la fd de y = x2 (no monótona) debe evaluarse de otra forma, así podemos escribir g(y) |dy| = X y=x2 f (x) |dx| , pues ahora hay dos valores de x correspondientes a un dado y. Ellos son √ x = ± y. Así resulta √ √ √ √ g(y) |dy| = f (+ y) |d y| + f (− y) |d y| , o bien 1 √ √ g(y) = (f (+ y) + f (− y)) √ , 2 y pero f (x) = 1 2 en [−1, 1], por lo cual resulta 1 √ , para 0 < y < 1 2 y g(y) = 0 caso contrario. g(y) = 8.6 Variables aleatorias 167 Bidimensional Cuando se tienen dos variables aleatorias continuas x, y con fd conocidas, f (x), y g(y), supuestas independientes, la fd de una función z = F (x, y), h(z) puede evaluarse como sigue Z f (x)g(y) |dxdy| , (8.5) h(z) |dz| = z=F (x,y) o sea la integral es sobre el área entre las dos curvas F (x, y) = z, y F (x, y) = z + dz. Como veremos en un ejemplo práctico, deberemos reemplazar las variable (x, y) por otro conjunto (z, v) con v convenientemente elegida. En el capítulo sobre errores, se verán otras aplicaciones de esta relación. Generación de una distribución normal a partir de variables uniformes. Ejemplo 8.6.10 Ejemplo, sean x, y continuas con distribución uniforme en √ el intervalo [0, 1] . Determine la fd de la variable z = −2 ln x cos 2πy. √ Solución. Usaremos otra variable auxiliar v = −2 ln x sin 2πy para transformar la integral a variables z y v. De aquí puede obtenerse 1 −2 ln x = z 2 + v 2 , x = e− 2 (z 2 +v 2 ) , 1 v v arctan , tan 2πy = , y = z 2π z y el jacobiano de la transformación implica ¯ ∂x ∂x ¯ ¯ ¯ 1 − 1 z2 − 1 v2 ∂z ∂v ¯ |dxdy| = |dzdv| ¯¯ ∂y e 2 2 |dzdv| , ∂y ¯ = 2π ∂z ∂v resulta entonces h(z) = Z ∞ −∞ 1 f (e− 2 (z 2 +v 2 ) )g( 1 v 1 1 2 1 2 arctan ) e− 2 z − 2 v dv, 2π z 2π pero f = g = 1 de modo que finalmente se obtiene 1 2 1 h(z) = √ e− 2 z 2π (Adaptado de Numerical Recipes in Pascal) 168 Elementos de probabilidades N Nota 8.1 Esto tiene una evidente importancia para efectos de cálculos numéricos. En la mayor parte de los programas de computación (C, Pascal, Basic, etcétera) están desarrolladas rutinas para generar variables con distribución uniforme en algún rango predeterrminado. Utilizando el resultado anterior podemos entonces generar una variable z con distribución normal estándar. Nota 8.2 Puede parecer perverso (Numerical Recipes in Pascal, The Art of Scientific Computing) que la máquina más precisa y determinista ideada por el ser humano, el computador, pueda producir números al azar. Todo programa ideado debería producir un resultado completamente determinado o predecible, por lo tanto no al azar. Sin embargo estos seudo generadores de números al azar, donde los números que salen, finalmente cierran un ciclo, generalmente muy largo, tienen muchas de las propiedades de los verdaderos números al azar, vea Knuth, Donald E. 1973, Sorting and Searching, vol. 3 of the Art of Computer Programming. (Addison - Wesley) Nota 8.3 ¿Qué es un verdadero número al azar? Aquí hay mucho de filosofía, pero según se acepta hoy día, los fenómenos físicos son intrínsecamente probabilisticos, de modo que ellos pueden servir de base para generar verdaderos números al azar. 8.7. Ejercicios. Ejercicio 8.7.1 Se lanzan tres monedas. Determine la probabilidad de obtener a) tres caras. b) 2 caras y un sello. c) 3 sellos. c) al menos 2 caras. Ejercicio 8.7.2 En un lanzamiento de dos dados, determine la probabilidad de 8.7 Ejercicios. 169 a) sumen 7. b) obtener dos números iguales. c) dos números iguales o que sumen 8. Ejercicio 8.7.3 En una caminata al azar, dando pasos hacia la izquierda o hacia la derecha con la misma probabilidad, si los pasos son de un metro, determine la probabilidad de que en 10 pasos, el avance sea de 8 metros hacia la derecha. Ejercicio 8.7.4 Respecto a la situación del ejercicio anterior, determine la posición más probable después de 10 pasos. Ejercicio 8.7.5 Una bolsa contiene 6 bolitas azules, 4 bolitas rojas y 2 bolitas verdes. Determine la probabilidad de al extraer sin reemplazo a) tres de tres sean azules. b) de cuatro, ninguna sea roja. c) de tres, todas sean verdes. Ejercicio 8.7.6 En un estudio para determinar la agudeza visual de una persona se le presentan cuatro matices de diferente brillantes. Determine la probabilidad de que ellos sean ordenados correctamente por casualidad. Ejercicio 8.7.7 En una prueba de alternativas, cada pregunta tiene 5 alternativas, siendo sólo una de ellas correcta. Cuál es la probabilidad de que en 10 preguntas contestadas al azar, todas las respuestas sean correctas. Ejercicio 8.7.8 Respecto a la pregunta anterior, si el estudiante tiene 5 respuestas buenas y 5 respuestas malas, cual debería ser su calificación en la escala de notas del 1 al 7. Ejercicio 8.7.9 Si las variables aleatorias xi son independientes con valor esperado µ y desviación estandar σ, pruebe que E(< x >) = µ 170 Elementos de probabilidades Ejercicio 8.7.10 Si las variables aleatorias xi son independientes con valor esperado µi y desviación estandar σ i , pruebe que la variable aleatoria X z= ai xi tiene valor esperado E(z) = y varianza σ 2z = X X ai µi a2i σ 2i Ejercicio 8.7.11 Si las variables aleatorias xi son independientes con valor esperado µ y desviación estandar σ, pruebe que la variable aleatoria < x > tiene desviación estándar (caso particular de lo anterior) σ σ <x> = √ n Solución. 1 X X E( < x >2 ) = 2 E( xi xj ) = n 1 X 2 X = 2 E( xi + xi xj ) n i6=j X 1 1 = E(xi xj ) E(x2i ) + 2 n n i6=j = 1 1 E(x2 ) + 2 (n2 − n)µ2 , n n pero E(x2 ) − µ2 = σ 2 , por lo tanto E( < z >2 ) = = σ2 + µ2 , n 1 2 1 (µ + σ 2 ) + 2 (n2 − n)µ2 n n además E(< x >) = E( 1X xi ) = µ n 8.7 Ejercicios. 171 entonces σ 2<x> = σ2 σ2 + µ2 − µ2 = . n n N Ejercicio 8.7.12 Si las variables aleatorias undependientes x, y tienen distribución de probabilidad uniforme en e intervalo [0, 10] detemine la función distribución de a) z = x + y. b) w = xy. c) u = x2 . 172 Elementos de probabilidades Capítulo 9 Estadística de datos 9.1. Introducción Aquí nos preocuparemos de describir datos, provenientes o no de algún experimento. Tendremos entonces un conjunto finito de datos, para el caso que nos interesa números reales, {xi } con i = 1, 2, · · · , n. Este conjunto es llamado una muestra en el caso de que dichos datos sean un subconjunto obtenido por algún proceso selectivo de algún conjunto más grande, usualmente la población o Universo de algún proceso de medición, conjunto normalmente de tamaño infinito, o bien simplemente los “datos” si ellos no provienen de un conjunto más grande. Sin embargo dicha conexión existente o no entre muestra y población, no es necesaria aquí. Se tiene simplemente una muestra y por lo tanto toda la información relativa a la muestra está contenida en la muestra misma. De hecho no hay más información que ese conjunto finito. Sin embargo en muchos casos las muestras son grandes o muy grandes y ello requiere de técnicas para resumir la información, o hacer la información más evidente sin necesidad de recorrer y examinar todos los valores. Para ese efecto se ha desarrollado lo que se denomina “la estadística descriptiva”, que intenta describir las propiedades de las muestras mediante unos pocos parámetros, denominados “estadígrafos de la muestra”. Podemos anticipar que estos estadígrafos tendrán en algunos casos otra utilidad más allá de describir la muestra. Ello jugarán, junto a elementos de teoría de probabilidad, un rol importante en el hacer predicciones estadísticas con alguna determinada probabilidad de acierto. 174 9.2. Estadística de datos Estadígrafos muestrales En este libro, el tema central son resultados reales de algún experimento, por ello consideraremos muestras de números reales, siendo que en rigor bastaría considerar números racionales por las incertezas propias de los procesos de medición. Haremos entonces algunas definiciones. Definicion 9.2.1 El promedio muestral que se denota como x̄ o < x > se define mediante n 1X x̄ =< x >= xi . (9.1) n i=1 Definicion 9.2.2 La varianza muestral que se denota como s2n se define mediante n 1X 2 (xi − x̄)2 . (9.2) sn = n i=1 Definicion 9.2.3 La desviación estándar de la muestra se define mediante v u n u1 X sn = t (xi − x̄)2 n i=1 Definicion 9.2.4 La varianza muestral (insesgada) s2n−1 se define mediante 1 X = (xi − x̄)2 . n − 1 i=1 n s2n−1 (9.3) La diferencia entre ambas es pequeña si n es grande, pero como se explica más adelante, sn−1 es un mejor estimador de la desviación estandar poblacional. Definicion 9.2.5 La varianza muestral s2n de la muestra se define como 1X = (xi − x̄)2 n i=1 n s2n 9.3 Distribuciones de frecuencia 175 La diferencia entre sn y sn−1 es mínima si n es grande, pero hay de todos modos una diferencia conceptual que será explicada más adelante. Una propiedad útil que sigue de la definición (9.2) mediante el desarrollo siguiente 1X 2 = (x − 2xi < x > + < x >2 ), n i=1 i n s2n o sea s2n =< x2 > −2 < x >2 + < x >2 , o finalmente s2n =< x2 > − < x >2 . El significado del promedio es conocido por todos. La desviación estándar, de acuerdo a (9.2), significa la raíz del promedios de las diferencias cuadráticas con el promedio. Se parece, pero no es igual al promedio de las distancias al promedio. Claramente es imposible tratar de describir una muestra de n elementos, con apenas un par de valores, pero algo es algo. Muchas veces los detalles no son necesarios. En esa descripción ayuda algo más, examinar la distribución de frecuencias de la muestra, y su respectivo gráfico. 9.3. Distribuciones de frecuencia Si se tiene una enorme muestra, mejor que examinar ese enorme listado de valores, no se pierde demasiada información si los datos se agrupan en intervalos o clases de igual ancho, indicando junto al respectivo intervalo, el número de datos que tienen valor dentro de el, cuestión llamada la frecuencia de la respectiva clase fi . Como valor representativo de la clase xi se suele usar el promedio de los límites de clases, es decir el valor central de la clase, aunque ese valor podría no existir en la muestra. Por ejemplo, una tabla de frecuencia tendría un aspecto como el siguiente. 176 Estadística de datos clase 5 − 10 10 − 15 15 − 20 20 − 25 25 − 30 30 − 35 xi 7,5 12,5 17,5 22,5 27,5 32,5 n= fi 5 10 40 35 20 3 113 Si esta es la información disponible, de aquí se pueden calcular aproximadamente los estadígrafos muestrales con algunas modificaciones en las fórmulas. Así 1 X < x >= fi xi , n clases s2n−1 = 1 X fi (xi − < x >)2 , n − 1 clases además de representar la “distribución” de datos de un sinnúmero de formas posibles. Por ejemplo diagrama de barras, línea poligonal, diagrama de torta, ajuste polinomial, etcétera. El más utilizado es un diagrama de barras, como se ilustra en la figura siguiente, para el ejemplo dado. 5 if 5 < x < 10 10 if 10 < x < 15 40 if 15 < x < 20 f (x) = 35 if 20 < x < 25 20 if 25 < x < 30 3 if 30 < x < 35 Estas curvas, son a veces denominadas distribuciones experimentales de probabilidad, pero ese concepto no será usado aquí. 9.4. Método de mínimos cuadrados Supongamos que se tenga una muestra de tamaño n, de pares de valores (xi , yi ). Un diagrama de dichos puntos en un gráfico X − Y , puede mostrar (o no) alguna tendencia a agrupación cerca de alguna curva continua. Supongamos que es aparente que los puntos se aproximan a cierta recta. Un 9.4 Método de mínimos cuadrados 177 40 35 30 25 20 15 10 5 5 10 15 20 x 25 30 35 Figura 9.1: histograma de frecuencias. problema que resuelve también la estadística descriptiva es el encontrar la ecuación de la recta tal que la suma de los cuadrados de las diferencias en y que se producen es mínima. Esto está relacionado pero no es una técnica de regresión lineal. Aquí no estamos hablando de modelos ni nada parecido. Así concretamente el problema es : Se tienen n datos (xi , yi ). (puntos en un plano) Se busca una recta, es decir una función lineal y(x) = a + bx P Bajo la condición que SSE = (y(xi ) − yi )2 sea un mínimo. Utilizando la expresión lineal supuesta para y(x) debemos minimizar con respecto a a y b, la expresión X SSE = (a + bxi − yi )2 . Si se desarrolla el cuadrado se tiene X X X X X xi − 2b xi yi − 2a yi + yi2 + a2 . x2i + 2ab SSE = b2 Es decir se tiene una función cuadrática en las variables a y b. Mediante técnicas del cálculo, detalles que usted puede omitir si tiene fe, resulta entonces que los coeficientes a y b deben ser tales que X ∂ X 2(a + bxi − yi )xi = 0, (a + bxi − yi )2 = ∂a 178 Estadística de datos X ∂ X (a + bxi − yi )2 = 2(a + bxi − yi ) = 0. ∂b Estas ecuaciones pueden ser escritas en términos de promedios, de la siguiente forma b < x2 > +b < x > − < yx >= 0, b < x > +a− < y >= 0, de donde podemos despejar b= por lo tanto < yx > − < x >< y > , < x2 > − < x >2 < yx > − < x >< y > (x− < x >). < x2 > − < x >2 Como explicamos podemos llamar y(x) =< y > + (9.4) √ < x2 > − < x >2 , sx = p < y 2 > − < y 2 >, sy = a las desviaciones estándar muestrales (estadígrafos de la muestra) de x, y respectivamente. Para escribir el resultado (9.4) en otras formas, consideremos lo que sigue. 9.4.1. Variaciones Medidas de las desviaciones de los datos yi respecto a su promedio, de los datos yi respecto a la recta y de la recta respecto al promedio (ver figura 9.2), se denominan variación total, variación no explicada y variación explicada. En forma más precisa se definen (con diversas notaciones) Variación total Syy = SST. SST = Syy = X (yi − < y >)2 . 9.4 Método de mínimos cuadrados <y> Total 179 <y> <y> No explicada Explicada Figura 9.2: Variaciones. Variación no explicada SSE. SSE = que fue la cantidad minimizada y X (yi − y(xi ))2 , Variación explicada SSR SSR = X (y(xi )− < y >)2 . I Teorema 9.1 Entre las variaciones definidas se tiene que o X X X (yi − < y >)2 = (yi − y(xi ))2 + (y(xi )− < y >)2 , SST = SSR + SSE. Demostración. Desarrollando los cuadrados se tiene que 180 Estadística de datos SST = X (yi − < y >)2 = n(< y 2 > − < y >2 ), además podemos desarrollar X (yi − y(xi ))2 X = (yi − < y > −a(xi − < x >))2 X = (yi − < y >)2 + na2 (< x2 > − < x >2 ) − SSE = 2an( < xy > − < x >< y >), pero a = (< yx > − < x >< y >)/(< x2 > − < x >2 ) por lo que se puede escribir SSE = X (yi − < y >)2 − na2 (< x2 > − < x >2 ), por otro lado desarrollemos SSR = X (y(xi )− < y >)2 = na2 (< x2 > − < x >2 ), que prueban el teorema. N 9.4.2. Coeficiente de correlación lineal de Pearson Se define el coeficiente de correlación lineal de Pearson r, al coeficiente r variación explicada r=± , variación total Debe notarse que r = ±1, si las desviaciones de los datos respecto al promedio (la variación total) son exclusivamente la desviación de los valores de la recta respecto al promedio, es decir todos los puntos caen sobre la recta. La elección 9.4 Método de mínimos cuadrados 181 del signo se hace de acuerdo al signo del coeficiente a, es decir el signo de la pendiente. Si reemplazamos en la definición se obtiene s b2 (< x2 > − < x >2 ) r=± , (< y 2 > − < y >2 ) o bien r=b sx , sy que puede finalmente escribirse < yx > − < x >< y > , sx sy El significado del coeficiente de correlación lineal r, es entonces ±1, cuando la variación no explicada es cero, es decir cuando la cantidad minimizada es cero, que corresponde a un ajuste perfecto. El signo de r corresponde al signo de la pendiente de la recta de mínimos cuadrados pues sy b=r . sx También se dice que el ajuste es completamente imperfecto si r = 0, caso que suele describirse diciendo que no hay correlación lineal.. Finalmente nos quedamos con esta última versión de la ecuación de la recta ajustada por mínimos cuadrados a los datos: r= y(x) =< y > +r sy (x− < x >). sx Definicion 9.4.1 Aunque esta materia no tiene que ver con errores en las mediciones (vea capítulo siguiente), se define el error estándar del ajuste, como rP (yi − y(xi ))2 √ sest = = SSE, n el cual es evidentemente cero si el ajuste es perfecto. Alternativamente podemos usar alguna expresión deducida más arriba SSE = X (yi − < y >)2 − na2 (< x2 > − < x >2 ) = = n(< y 2 > − < y >2 ) − na2 (< x2 > − < x >2 ) sy = ns2y − nr2 ( )2 s2x = ns2y (1 − r2 ) sx 182 Estadística de datos por lo cual sest = √ √ SSE = sy 1 − r2 . Note además que este error también se reduce a cero si sy = 0, puesto que en este caso todos los datos yi son iguales. 9.4.3. Resumen Finalmente, al margen de las demostraciones, interesan los resultados, que pueden escribirse como: estadígrafos de una muestra xi , i : 1, . . . , n. promedio muestral < x >= x̄ = desviaciones estándar muestrales 1X xi , n r 1X (xi − < x >)2 n √ = < x2 > − < x >2 , sn = 1 X (xi − < x >)2 n−1 r n √ = < x2 > − < x >2 , n−1 sn−1 = varianzas muestrales r 1X (xi − < x >)2 n = < x2 > − < x >2 , s2n = 1 X (xi − < x >)2 n−1 n (< x2 > − < x >2 ). = n−1 s2n−1 = 9.4 Método de mínimos cuadrados 183 Para n grande, las diferencias entre los estadígrafos de dispersión de la muestra sn y sn−1 son mínimas. (O entre s2n y s2n−1 ) Sin embargo hay una diferencia conceptual entre ellos. Si se trata de establecer la dispersión de los datos respecto al promedio, cualquiera de ellos la define de una manera. Sin embargo, y esto será establecido más adelante, si se trata de estimar los valores de la varianza (σ 2 ) del Universo del cual la muestra proviene, es un mejor estimador s2n−1 . Recta de ajuste de mínimos cuadrados Forma 1: y(x) =< y > +r sy (x− < x >). sx Forma 2: y(x) = a + bx. Coeficiente de correlación lineal de Pearson r == < yx > − < x >< y > . sx sy Desviaciones estándar Variación total √ < x2 > − < x >2 , sx = p < y 2 > − < y >2 . sy = SST = X (yi − < y >)2 = ns2y . 184 Estadística de datos Variación no explicada SSE = Variación explicada X (yi − y(xi ))2 = ns2y (1 − r2 ). SSR = X (y(xi )− < y >)2 = nr2 s2y Error estándar del ajuste sest rP √ (yi − y(xi ))2 = sy 1 − r2 . = n Pendiente P P P sy n xi yi − xi yi P P b = r = sx n x2i − ( xi )2 < xy > − < x >< y > = < x2 > − < x >2 < xy > − < x >< y > = . s2x Intercepto P P P 2P sy yi − xi xi yi xi P P a = < y > −r = sx n x2i − ( xi )2 < x2 >< y > − < x >< xy > = < x2 > − < x >2 2 < x >< y > − < x >< xy > = . s2x Tópicos más avanzados se encuentran en el capítulo siguiente sobre modelos. Allí se explican, pero eso requiere de más matemáticas, las formas de tratar los errores de los modelos lineales. Capítulo 10 Modelos lineales. 10.1. Introducción. En el capítulo anterior se explicó el llamado ajuste lineal de mínimos cuadrados. En física, en la mayor parte de los casos, se tiene en mente un modelo el cual debe ser contrastado con los datos obtenidos. En este punto, generalmente la cuestión es: ¿hay evidencia experimental para rechazar el modelo? Si la respuesta es no, ello no significa que se haya elegido el mejor modelo o que el modelo corresponda a la realidad. Pueden haber muchos modelos distintos relativos al mismo fenómeno que no puedan ser rechazados por la evidencia experimental. En este punto probablemente deba elegirse de acuerdo a otro tipo de criterios. Por ejemplo: el más simple, el más elegante, el que tenga menos parámetros, el que esté de acuerdo con alguna teoría mas amplia, etcétera. Desde nuestro personal punto de vista, la física experimental no demuestra cuestiones, sino que más bien no descarta hipótesis a menos que los datos así lo indiquen. Por ejemplo, no puede demostrarse experimentalmente que la ley de interacción entre dos cargas puntuales es inversa al cuadrado de la distancia, sino más bien debe decirse que no se ha encontrado evidencia experimental para rechazar ese modelo. De hecho las teorías - que son en cierta medida modelos - justamente son descartadas cuando se encuentra evidencia experimental contraria. En física existe una permanente búsqueda de las posibles relaciones entre propiedades físicas, algunas veces derivadas de alguna teoría, otras veces por experimentación pura. En el primer caso, evidencia experimental en contrario 186 Modelos lineales. causa un quiebre de la teoría, mientras que en el segundo caso, si se encuentra que una relación no es objetable, se trata afanosamente de justificarla teóricamente, lo cual a su vez produce avances en las teoría. El avance de los métodos experimentales encuentra caminos para producir avances en las teorías, así también a la inversa. En el capítulo anterior se indicaron las técnicas para hacer un ajuste de mínimos cuadrados a un conjunto de datos. Es una pregunta frecuente del cómo estimar los errores del ajuste, los errores de la pendiente y del intercepto. Es más, muchos programas computacionales simplemente los calculan. Sin embargo hay cuestiones conceptuales que es conveniente aclarar antes de entrar a ese tema el cual requiere de matemáticas algo avanzadas pero que será presentado de todos modos por completitud. Si los datos fueran por ejemplo el consumo per cápita (yi ) de algún producto a través del tiempo (xi ), y los datos son los correctos, no hay nada más que hacer y el ajuste de mínimos cuadrados, resulte de la calidad que sea, es todo lo que se puede hacer. Podríamos a lo sumo hacer una predicción sobre el consumo per cápita del año siguiente, pero no hay forma de estimar su error aun cuando el ajuste de los años anteriores sea perfecto. Esto es un ejemplo pero hay muchísimas situaciones del mismo tipo. Hay otro tipo de situaciones y eso hay que aclararlo a priori antes de intentar aplicar las técnicas que se explicarán. 10.2. Modelo lineal. Es posible aventurar la hipótesis, basada en algún tipo de argumentos, de que existe una relación lineal entre dos variables (x, y). Por ejemplo basándose en la teoría electromagnética, se puede hacer la hipótesis de que la corriente en un dispositivo es una función lineal del voltaje aplicado. Es decir se puede conjeturar que y = α + βx. Los coeficientes α y β se denominan los parámetros del modelo y se desea tener alguna estimación de ellos, y ojalá establecer intervalos donde ellos deberían encontrarse con alguna probabilidad especificada. Si se efectúan mediciones para un número de valores “exactos” de x se obtendrá un conjunto de valores medidos y los cuales por la naturaleza de los procesos de medición, tendrán errores. Es decir existirá alguna distribución de los valores y medidos. 10.2 Modelo lineal. 187 En otras palabras el conjunto (yi ) constituye una muestra aleatoria, y los coeficientes del ajuste de mínimos cuadrados y = a + bx, es decir la Pendiente b= < xy > − < x >< y > , s2x y el Intercepto < x2 >< y > − < x >< xy > . s2x pasan a ser variables aleatorias puesto que los yi lo son. Naturalmente, es ahora importante dilucidar cuestiones acerca del cuánto se acercan los valores calculados de a y b a los valores verdaderos o sea los parámetros del modelo. Del modelo y = α + βx a= de deduce que el valor esperado de yi es E(yi ) = α + βE(xi ) = α + βxi . Además es fácil establecer que 1X E( < y >) = E(yi ) = α + β < x >, n 1X 1X E( < xy >) = xi E(yi ) = xi (α + βxi ) n n = α < x > +β < x2 > . Entonces podemos calcular E(< xy >)− < x > E(< y >) E(b) = s2x α < x > +β < x2 > − < x > (α + β < x >) = s2x = β. 188 Modelos lineales. Similarmente < x2 > E(< y >)− < x > E(< xy >) s2x < x2 > (α + β < x >)− < x > (α < x > +β < x2 >) = s2x = α. E(a) = Es decir hemos demostrado que: I Teorema 10.1 a y b son estimadores insesgados de los parámetros α y β. El cálculo de la varianza de a y b es más complicado. La tarea se simplifica algo si calculamos primero en general para una función lineal en los yi de la forma X c= di yi i Aceptaremos para los diversos xi las variables aleatorias yi , yj son independientes y tienen la misma varianza σ. Entonces X X σ 2c = d2i σ 2 (yi2 ) = σ 2 d2i . i i Luego de 1 b= n podemos calcular σ 2b Similarmente de 1 = 2 n 1 a= n sigue que P (xi − < x >)yi , s2x P i (xi − < x >)2 σ 2 1 σ2 = . s4x n s2x P (< x2 > − < x > xi )yi , s2x P σ 2 (< x2 > − < x > xi )2 = 2 . n s4x Usted podría probar que esto se puede escribir σ 2a σ 2a = σ 2 < x2 > n s2x 10.2 Modelo lineal. 10.2.1. 189 Estimación del parámetro σ. Para que las fórmulas anteriores tengan alguna utilidad, debemos ser capaces de estimar σ. Se enuncia sin demostración el siguiente teorema. I Teorema 10.2 Un estimador insesgado de σ 2 es s2 = SSE . n−2 Note que si el ajuste es perfecto SSE = 0. Además de acuerdo al capítulo anterior √ √ sest = SSE = sy 1 − r2 , de modo que podemos estimar σ mediante √ sy 1 − r2 σ≈s= √ n−2 10.2.2. Intervalos de confianza para α y β. Aquí, nuevamente es necesario hacer algunas suposiciones. Podemos estimar α, β mediante los coeficientes a y b, pero debemos cuantificar algo sobre la validez de la estimación. El problema pasa por saber la distribución de probabilidad que tienen las variables aleatorias a(y) y b(y). A su vez esto depende de la distribución de probabilidad que tiene la variable aleatoria y. Supondremos que la variable aleatoria yi es normal con valor esperado µ = α + βxi y desviación estandar σ. Usted podría hacer otras suposiciones, pero es en este caso donde hay varios teoremas que enunciamos sin demostración: I Teorema 10.3 Un intervalo de confianza del (1 − p)100 % para el parámetro β es β =b± stp/2 √ sx n donde tp/2 es un valor de la distribución t con n − 2 grados de libertad. 190 Modelos lineales. I Teorema 10.4 Un intervalo de confianza del (1 − p)100 % para el parámetro α es pP stp/2 x2i α =a± nsx donde tp/2 es un valor de la distribución t con n − 2 grados de libertad. I Teorema 10.5 Intervalo de predicción. Un intervalo de confianza del (1 − p)100 % para el valor esperado de una medición y0 correspondiente al valor x0 es y0 = y(x0 ) ± stp/2 s 1+ 1 (x0 − < x >)2 √ + n sx n donde tp/2 es un valor de la distribución t con n − 2 grados de libertad. En estos teoremas la notación y = y0 ± , significa y0 − < y < y0 + , y 10.2.3. √ sy 1 − r2 s= √ . n−2 Valores particulares de tp . Para calcular los intervalos de confianza señalados se requieren los valores críticos tp/2 para los cuales el número de grados de libertad es gl = n − 2. Por ejemplo si n = 20 y se desea un intervalo de confianza del 95 % entonces gl = 18, p/2 = 0,05/2 = 0,025, tp/2 = 2,101. 10.2 Modelo lineal. gl.\p 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 inf. 191 0.10 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.282 0.05 0.025 0.01 0.005 6.314 12.706 31.821 63.657 2.920 4.303 6.965 9.925 2.353 3.182 4.541 5.841 2.132 2.776 3.747 4.604 2.015 2.571 3.365 4.032 1.943 2.447 3.143 3.707 1.895 2.365 2.998 3.499 1.860 2.306 2.896 3.355 1.833 2.262 2.821 3.250 1.812 2.228 2.764 3.169 1.796 2.201 2.718 3.106 1.782 2.179 2.681 3.055 1.771 2.160 2.650 3.012 1.761 2.145 2.624 2.977 1.753 2.131 2.602 2.947 1.746 2.120 2.583 2.921 1.740 2.110 2.567 2.898 1.734 2.101 2.552 2.878 1.729 2.093 2.539 2.861 1.725 2.086 2.528 2.845 1.721 2.080 2.518 2.831 1.717 2.074 2.508 2.819 1.714 2.069 2.500 2.807 1.711 2.064 2.492 2.797 1.708 2.060 2.485 2.787 1.706 2.056 2.479 2.779 1.703 2.052 2.473 2.771 1.701 2.048 2.467 2.763 1.699 2.045 2.462 2.756 1.645 1.960 2.326 2.576 192 Modelos lineales. Capítulo 11 Método experimental 11.1. Medición El tema de las mediciones en Física es uno de los aspectos centrales de este libro. También intentaremos clarificar algunos conceptos relativos a la teoría de errores (en las mediciones) y al tratamiento estadístico de datos, temas sobre los cuales hay variadas interpretaciones. En esta introducción se tratarán en forma un tanto vaga conceptos que serán explicados con mayor precisión más adelante, por ejemplo los términos de error, valor verdadero, incerteza, acuciosidad, precisión, modelos, etcétera. Cualquier medición involucra primero que nada la definición de la propiedad física a ser medida y en segundo lugar involucra una comparación (por algún método) con una propiedad física conocida del mismo tipo, la unidad de medida. El proceso termina arrojando un número para la propiedad física siendo medida, más alguna estimación del error cometido. El error se define como la diferencia entre el valor medido y el valor verdadero, hipotético valor que posee la cantidad física. El proceso de medición siempre involucra algún intercambio de energía entre el observador o el instrumento, con el objeto siendo medido. En muchos casos eso produce un efecto despreciable sobre la determinación realizada, pero en otros casos produce un efecto no despreciable que limita la acuciosidad del valor logrado, sobre todo a nivel del mundo microscópico. 194 11.2. Método experimental Valor verdadero Los errores en las mediciones están bien definidos, aunque sean desconocidos, cuando el valor verdadero de la propiedad física siendo medida existe. Este punto no está absolutamente claro, pero se cree que hay ciertas cantidades físicas que tienen valor verdadero. Por ejemplo la carga del electrón o del protón. La masa en reposo del electrón. La velocidad de la luz. Además existen constantes en las leyes de la física, las cuales tienen presumiblemente un valor verdadero, por ejemplo la constante de gravitación universal, la constante de Planck, etcétera. Por otro lado, la corriente que circula por un dispositivo puede tener fluctuaciones intrínsecas de causas desconocidas, que indeterminan el concepto de valor verdadero, y por lo tanto el concepto de error en su medición. La aplicación de teorías de errores o tratamiento estadístico de datos que se explica más adelante, requiere tener claridad sobre estos aspectos. Considere por ejemplo el siguiente caso. Caso 3 Es una práctica usual de algún curso de laboratorio de primer nivel, entregarle a un alumno una “esfera” metálica, un instrumento para medir longitudes, por ejemplo un pie de metro, y se solicita el diámetro de la “esfera” con su error. Discusión. Este simple caso tiene muchos de los aspectos que nos proponemos clarificar en este libro, por lo cual se analiza desde un punto de vista crítico. Claramente, por la existencia de otro tipo de errores, errores de fabricación, no existen esferas perfectas. Por otro lado esferas imperfectas simplemente no son esferas. ¿Qué hacer? Para exagerar la situación y que esto queda algo más claro, supongamos que en realidad se tiene un elipsoide. Si el pie de metro se coloca varias veces para medir un “diámetro” en la misma posición relativa respecto al objeto, la distancia d entre los paralelas a los puntos de contacto (ver figura 11.1) debe tener un valor verdadero (suponiendo que no haya causas que la hagan variable), y los resultados experimentales del proceso de medición probablemente sean parecidos pero distintos. De esto tratará la teoría de errores, tratando de aproximarse al valor verdadero de esa distancia. Para ello jugarán un papel importante aspectos de la estadística matemática. Si ese proceso se repite, para varias posiciones relativas del instrumento respecto al objeto, se tendrán diversos valores, ahora no necesariamente parecidos, cada uno con una estimación de su error. ¿Qué se puede decir sobre 11.2 Valor verdadero 195 d Figura 11.1: medida con un pie de metro el objeto siendo medido?. Para dilucidar este aspecto de la situación es vital el uso del llamado tratamiento estadístico de datos y ajustes a modelos. Aunque no lo describiremos aquí con detalle el ajuste a modelos hecho con técnicas estadísticas arrojará incertezas de algún tipo (no errores) sobre las constantes del modelo aún si los datos estuvieran libres de errores. A ello, a las incertezas, mediante técnicas conocidas como de “propagación de errores” se agregan los errores producto de los errores en los datos (si los hay). Finalmente, la respuesta puede ser muy variada, dependiendo de la aplicación práctica que se desee hacer con los resultados. Por ejemplo El objeto se parece a una esfera de cierto diámetro con desviación estándar afecta de cierto error en el diámetro de cierto valor. Note que rigurosamente hablando aquí se produce una mezcla de errores propiamente tales, con otras incertezas producto de que el objeto no se ajusta exactamente al modelo. El objeto se ajusta mejor a un elipsoide con desviaciones estándar en los semiejes de cierto valor. (para el caso analizado, estas desviaciones estándar deberían ser menores que para el otro caso). Aplican asimismo las mismas otras consideraciones del primer caso. Por último, uno debería quedarse con el modelo que mejor se “aproxime” o “ajuste” a los datos, siendo necesario también analizar lo que ocurre si los errores realizados en las mediciones superan las incertezas predichas por el 196 Método experimental modelo. Lo lógico en este caso será decir que no hay evidencias experimentales en contra del modelo elegido. Más adelante, por su importancia, se analizará una técnica llamada regresión lineal múltiple, con las respectivas técnicas para establecer su validez, que es una de las tantas técnicas para seleccionar mejores modelos. Este resumen se ha hecho a modo de introducción para justificar lo que viene. Deberemos aprender a tratar errores, a ajustar modelos mediante métodos estadísticos y finalmente discriminar la mejor respuesta posible. 11.3. Estandarización Los primeros estándares de medición aparecieron en las culturas mediterráneas y estaban basadas en partes del cuerpo humano, o en lo que algún animal podía tirar, o en el volumen de algún depósito. La unidad egipcia “cubit” se acepta que fué la unidad de longitud lineal más extendida en el mundo antiguo a partir de año 3000 BC, y consistía en la longitud entre el codo del brazo hasta la punta de los dedos extendidos. Bueno, las cosas han avanzado progresivamente y hoy día de acuerdo a una convención internacional realizada en París en 1960 acordaron el sistema internacional de unidades (SI) basado en siete unidades básicas. Las letras SI representan al “Système International d’Unités”. Este es el sistema internacionalmente acordado para la mayor parte de los trabajos científicos y tecnológicos en la mayoría de los países. Las Unidades SI son de tres tipos base, suplementarias, y derivadas. Hay siete unidades base correspondientes a las siete cantidades físicas dimensionalmente independientes, como se muestra en la tabla siguiente Unidades SI base Cantidad física Nombre Símbolo longitud metro m masa kilogramo kg tiempo segundo s corriente eléctrica Ampère A temperatura termodinámica Kelvin K cantidad de substancia mol mol intensidad luminosa candela cd 11.3 Estandarización 197 Unidades SI suplementarias Cantidad física Nombre Símbolo ángulo plano radián rad ángulo sólido estereorradián sr Unidades SI derivadas Cantidad física Nombre Símbolo frecuencia Hertz Hz energía Joule J fuerza Newton N potencia Watt W presión Pascal Pa carga eléctrica Coulomb C diferencia de potencial eléctrico Volt V resistencia eléctrica Ohm Ω conductancia eléctrica Siemens S capacidad eléctrica Farad F flujo magnético Weber Wb inductancia Henry H densidad de flujo magnético 11.3 Tesla T flujo luminoso Lumen lm iluminación Lux lx *También conocida como inducción magnética Unidades SI se usan con catorce prefijos para formar múltiplos decimales y submúltiplos de las unidades. Prefijos usados Nombre de Factor Prefijo Símbolo 10 decada 2 10 hecto- h 3 10 kilok mega- M 106 109 gigaG 1012 teraT 1015 petaP 18 10 exaE con unidades SI Nombre de Factor Prefijo 10−1 deci−2 10 centi−3 10 mili10−6 micro−9 10 nano10−12 pico−15 10 femto−18 10 atto- Símbolo d c m µ n p f a 198 11.4. Método experimental Valores de algunas constantes fundamentales De acuerdo a la recomendación de 1986, CODATA recomienda los siguientes valores de algunas constantes fundamentales Cantidad Símb. Valor veloc. de la luz en vacío permitiv. el. del vacío permitiv mag. del vacío const. de gravitación const. de Planck carga electrón masa electrón const. de Avogadro c µ0 ε0 G 299792458 4π × 10−7 8.854187817.. 6.67259(85) 1.05457266(63) 1.60217733(49) 9.1093897(54) 6.0221367(36) h e me NA Unidad ppm m s−1 N A−2 10−12 F m−1 10−11 m3 kg−1 s−2 10−34 J s 10−19 C 10−31 kg 1023 mol−1 0 0 0 128 0.60 0.30 0.59 0.59 Los dígitos entre paréntesis corresponden a la incerteza estándar en la desviación de los últimos dígitos del valor dado. CODATA fué establecido en 1996 como un comité interdisciplinario del Consejo Internacional de uniones científicas (International Council of Scientific Unions). Tabla adaptada de la Referencia NIST sobre Constantes, Unidades e Incertezas. La incerteza relativa está expresada en partes por millón (ppm). 11.5. Las unidades básicas. las definiciones de las unidades básicas, de espacio tiempo y masa, han experimentado cambios con el propósito de adecuarse a los avances en los métodos experimentales, no existiendo razón alguna para suponer que las actuales definiciones son las definitivas. La excepción consiste en la unidad de masa, el kilogramo, establecida en 1887. Hoy (1999), las definiciones aceptadas son las siguientes. Definicion 11.5.1 El kilogramo se define como la masa de un cilindro fabricado con una aleación de platino e Iridio que se conserva en la International Bureau of Weights and Measures, en Sevres Francia. 11.6 Introducción a errores 199 Este patrón (primario) no se ha cambiado debido a la extraordinaria estabilidad de esa aleación. Un duplicado (patrón secundario) se conserva en el National Bureau of Standards en Gaitherburg. Definicion 11.5.2 Un segundo es el tiempo que requiere un átomo de Cesio 133 para realizar 9.192.631.770 vibraciones, correspondientes a la transición entre dos niveles hiperfinos de su estado fundamental. Esta definición tiene la ventaja respecto a la definición del kilogramo, de no requerir de patrones específicos guardados en algún lugar, para su realización. La pregunta que se puede formular es ¿Cuando sería necesario hacer una redefinición de esta unidad? Una respuesta posible es: Cuando las técnicas experimentales permitan medir tiempos menores que el de una oscilación de las mencionadas. De este punto de vista, el tiempo está bien definido hoy en día hasta ese límite. No hay razón para suponer un límite definitivo y si lo hubiera, entonces el tiempo sería una propiedad física discreta (no continua). Definicion 11.5.3 El metro se define como la distancia recorrida por la luz en el vacío en un intervalo de tiempo de 1/299,792,458 segundos. Esta definición está basada en la extraordinaria precisión con que actualmente se puede medir la velocidad de la luz, la cual se acepta hoy en día que es exactamente 299,792,458 m/s. Si usted está preocupado porque el intervalo de tiempo involucrado es demasiado pequeño, no se preocupe pues se está bastante lejos de lo alcanzable, en ese lapso de tiempo el átomo de Cesio 133 ha realizado 9,192,631,770/299,792,458 = 30. 663 vibraciones. 11.6. Introducción a errores 11.6.1. Límites de las mediciones. La física no es una ciencia exacta por la imposibilidad concreta de determinar exactamente los valores de las cantidades físicas. Muchos son los factores que inciden en la calidad de la determinación de una cantidad física. Por ejemplo Errores de apreciación. Cuando se utilizan instrumentos de medida, la última cifra que podría determinarse se estima como una fracción de 200 Método experimental la división más pequeña. Por razones de muy diversa índole, si un observador repite estas mediciones, apreciará cada vez diversas fracciones de la escala más pequeña. Estas constituyen errores de apreciación que supondremos variarán de manera aleatoria o casual. Los valores determinados en cada medición quedan entonces determinados hasta esa última cifra, correspondiente a la fracción estimada de la división más pequeña, estando incierta la cifra siguiente. Por ejemplo si se utiliza una regla graduada en mm para determinar una longitud, los valores obtenidos podrían ser 10,2 10,1 10,1 10,3 10,2 10,1 10,2 10,3 ó ó ó ó ó ó ó ó 10,2 ± 0,05 10,1 ± 0,05 10,1 ± 0,05 10,3 ± 0,05 10,2 ± 0,05 10,1 ± 0,05 10,2 ± 0,05 10,3 ± 0,05 mm mm mm mm mm mm mm mm donde en la primera columna se indican solamente las cifras significativas y en la segunda se hace explícita la incerteza que se produce producto del desconocimiento de la cifra que sigue. Para todo el proceso que se explicará más adelante, se utilizarán los valores como los dados en la primera columna, pero para efectuar las operaciones matemáticas, como ser la determinación del promedio y otras, se utilizarán las reglas para operaciones con números con cifras significativas conocidas, es decir se determinará el promedio con tres cifras significativas y de acuerdo a lo que se explica más adelante, el resultado de la longitud se puede escribir con un 68 % de seguridad como l = 10,2 ± 0,02 Errores aleatorios o casuales. Además de los errores de apreciación, características similares tienen los errores que son causados por causas o fluctuaciones de causas desconocidas de las condiciones en cada medida. Por ejemplo fluctuaciones de la tensión de alimentación de algún instrumento. Fluctuaciones de la presión atmosférica, temperatura ambiente, etcétera. 11.7 Errores aleatorios 201 Errores causados por falta de definición. Aunque el proceso de medición fuera perfecto, pueden producirse fluctuaciones de los valores medidos por falta de definición de la cantidad física siendo medida. Por ejemplo si se miden los diámetros de un objeto esférico, pueden producirse fluctuaciones de los resultados obtenidos simplemente porque el objeto no es exactamente esférico. O bien, al medir una supuesta corriente constante, se obtienen diversos valores porque la corriente no era realmente constante. Este tipo de errores no son susceptibles de tratamiento estadístico, por los cual lo único que cabe es analizar la situación caso a caso. Puede ser gráfico distinguir este tipo de errores con errores aleatorios del proceso de medición. Errores sistemáticos. Estos errores pueden ser causados por defectos de los aparatos de medición y pueden ser detectados mediante la utilización de otros aparatos o bien realizando ajustes o calibraciones de los aparatos que se utilizan. Para ello es necesario disponer de patrones de calibración. 11.7. Errores aleatorios Como se explicó existen errores en las mediciones de diversos tipos, pero los únicos susceptibles de un tratamiento estadístico son los errores aleatorios, con los cuales algo se puede hacer con las herramientas que hemos considerado. Supongamos entonces que hemos diseñado un experimento donde se miden propiedades físicas A, B, etcétera, con hipotéticos valores verdaderos existentes que llamaremos a, b, etcétera. Por hipótesis, cuando sólo hay errores al azar, los resultados de las medidas tienen una cierta distribución de probabilidad, es decir podemos decir, que estamos sacando al azar, elementos del universo de posibles valores de variables aleatorias que llamaremos xA , xB , etcétera. Estas variables aleatorias que supondremos son estadísticamente independientes con valor esperado µA , µB , · · · , y varianzas σ 2A , σ 2B , · · · . La hipótesis usual, no demostrable, es que los valores verdaderos son los valores esperados de las respectivas variables aleatorias, es decir a = µA , b = µB , · · · . Es necesario remarcar que nada se puede a priori decir del tipo de distribución que se tiene en cada proceso de medición. Ella puede ser uniforme, 202 Método experimental Gaussiana, o de cualquier tipo. La hipótesis es que ella existe y su valor esperado corresponde al valor verdadero de la cantidad física siendo medida. 11.7.1. Error de una medida Por ahora, concentrándonos en la medición de una cantidad física A. El error (absoluto) de una medida xi se define como i = xi − µ, valor imposible de determinar, pues no podemos conocer µ, el valor verdadero o esperado de la distribución. Sin embargo, hay formas de estimarlo, cuestión que nos proponemos explicar. Para ello podemos utilizar el teorema central del límite que fué explicado en el capítulo de probabilidades. Supongamos que hemos hecho un número n de medidas, arrojando valores xi . Como se explicó en el capítulo referido, si < x > indica el promedio, entonces la variable aleatoria < x > −µ √ z= , σ/ n tiene distribución normal estándar N(0, 1), si n es grande. La variable aleatoria (promedio) < x > está dada por x̄ = < x > = 1X xi , n de manera que podemos precisar el intervalo central donde debe estar z si damos su probabilidad, que ahora llamaremos nivel de confianza o seguridad. De las tablas de la distribución normal podemos deducir el valor numérico zα correspondiente a un determinado valor central de probabilidad α (cercano a 1), resultando entonces que −zα < x̄ − µ √ < zα , σ/ n con un 100 × α % de probabilidad, o despejando σ σ x̄ − zα √ < µ < x̄ + zα √ , con nivel α n n o sea el desconocido valor verdadero µ, está en un entorno pequeño del promedio muestral si n es grande. Valores usuales, correspondientes valores de zα , 1,2, 3 se utilizan, de acuerdo a la tabla 11.7 Errores aleatorios 203 zα 1 2 3 α 0. 682 69 0. 954 5 0. 997 3 Sin embargo, σ no es conocido. De esto nos preocupamos en la sección que sigue. 11.7.2. Estimación de σ Por definición, la varianza σ 2 es el valor esperado de la (x − µ)2 , es decir Z x2 2 V ar(x) = σ = (x − µ)2 f (x)dx, x1 que puede desarrollarse así Z x2 2 σ = (x2 − 2µx + µ2 )f (x)dx = E(x2 ) − µ2 x1 similarmente desarrollemos 1 X n (< x2 > − < x >2 ), = (xi − < x >)2 = n − 1 i=1 n−1 n s2n−1 y calculemos los valores esperados 1 XX 1 X 2 XX E( x x ) = E( xi + xi xj ) i j n2 n2 i6=j XX 1 1 = 2 (nE(x2 ) + µ2 ) = 2 (n(σ 2 + µ2 ) + (n2 − n)µ2 ), n n i6=j E( < x >2 ) = E(< x >2 ) = σ 2 + µ2 n . n similarmente resulta E(< x2 >) = E( 1X 2 xi ) = σ 2 + µ2 , n 204 Método experimental por lo tanto, al reemplazar E(s2n−1 ) = n (E(< x2 >) − E(< x >2 )) = σ 2 . n−1 Esta es la razón por la cual se llamó a s2n−1 un estimador insesgado de la varianza de la distribución de probabilidad, pues su valor esperado coincide con la varianza de la función distribución. Usaremos entonces como un estimador para σ a la desviación estándar muestral sn−1 , de modo que sn−1 sn−1 x̄ − zα √ < µ < x̄ + zα √ , con nivel α, n n cuestión que suele escribirse más livianamente como sn−1 µ = x̄ ± zα √ , con nivel de significación α, n de modo que podemos también estimar el rango donde está el error absoluto de una medida xi con el mismo nivel de confianza α, mediante i sn−1 = xi − µ = xi − x̄ ± zα √ . n Lo que importa finalmente, es que nos hemos aproximado al valor verdadero, obteniendo para las diversas variables siendo medidas, intervalos donde podemos asegurar con determinada probabilidad que su valor verdadero está. O sea, para cada propiedad medida, tenemos finalmente sus valores con sus errores µA = < xA > ± A , µB = < xB > ± B , etcétera 11.8. Sobre algunas características de los aparatos de medición. En el análisis de las mediciones se utilizan frecuentemente los términos de precisión y exactitud, que a veces son considerados en el lenguaje diario como la misma cosa. Sin embargo son cuestiones muy diferentes. 11.9 Propagación de errores 205 Exactitud. La exactitud es una medida de la ausencia de errores sistemáticos. Esto es considerando que los errores aleatorios pueden ser eliminados por el proceso estadístico que se describe más adelante. En otras palabras un aparato de medición es más exacto mientras más se acerque el valor promedio de las lecturas al valor verdadero. Precisión. La precisión de un aparato es una medida de lo pequeño que son los errores aleatorios, es decir un aparato muy preciso arrojará casi los mismos valores en cada medición en ausencia de errores personales o de otro tipo. Como puede comprenderse, exactitud requiere de precisión pero precisión no garantiza exactitud. También es importante conocer los conceptos de resolución y sensibilidad de un instrumento. Resolución. La resolución esta relacionada con el número de cifras significativas con que el instrumento muestra los resultados. Por ejemplo si un instrumento medidor de velocidades indica una velocidad v = 1,18745 m s−1 podemos decir que este instrumento resuelve 0,00001 m s−1 . Este instrumento tiene mayor resolución que otro que indicara v = 1,18 m s−1 . Sensibilidad. La sensibilidad es el cambio incremental más pequeño que puede detectar el instrumento. A primera vista se confunde con el concepto de resolución pero hay diferencias. De hecho, aparatos de medición electrónicos pueden aumentar su sensibilidad (por ejemplo amplificando la señal siendo medida) pero ello puede causar problemas de estabilidad en la lectura, debiéndose en consecuencia mantener la resolución fija para tener lecturas estables. 11.9. Propagación de errores La pregunta que uno puede hacerse ahora es, si se conocen los errores de propiedades física medidas A, B, cuales son los errores de expresiones tales como A + B, AB, A2 + B, f (A, B), etcétera. La respuesta pasa también por una análisis probabilístico, debemos poder decir algo de las funciones de distribución de las combinaciones de variables, suponiendo que ellas son 206 Método experimental estadísticamente independientes. Esto requiere de matemáticas más o menos compleja por lo cual las demostraciones de dejan en el apéndice para el que se interese. 11.9.1. Función distribución de la suma Por ejemplo, sean fA y fB las funciones de distribución de A y B. La función distribución de la suma será f (x)dx = Z Z fA (xA )fB (xB )dxA dxB , R en la región R donde xA + xB = x, o bien f (x) = Z fA (xA )fB (x − xA )dxA , así, es valor esperado de la suma será µ= Z Z xfA (xA )fB (x − xA )dxA dx si cambiamos variable x − xA = xB µ = = Z Z Z (xA + xB )fA (xA )fB (xB )dxA dxB (xA fA (xA )dxA + xB fB (xB )dxB ) dando como resultado µ = µA + µB . Veamos ahora que pasa con las varianzas 11.9 Propagación de errores σ 2 = = = Z Z Z Z Z Z 207 (x − µA − µB )2 fA (xA )fB (x − xA )dxA (xA − µA + xB − µB )2 fA (xA )fB (xB )dxA dxB ((xA − µA )2 + 2(xA − µA )(xB − µB ) + (xB − µB )2 )fA (xA )fB (xB )dxA dxB = σ 2A + σ 2B , es decir, las varianzas se suman σ 2 = σ 2A + σ 2B . 11.9.2. Funciones distribución de dos variables Como se estudió en el capítulo de probabilidades (8.5) si la variable aleatoria z depende funcionalmente de dos variables aleatorias x, y con fd , f (x) y g(y) respectivamente, siendo z = F (x, y), la función distribución de z será Z h(z) |dz| = f (x)g(y) |dxdy| , z=F (x,y) donde la integral es sobre el área entre las dos curvas F (x, y) = z, y F (x, y) = z + dz. Por ejemplo Producto de dos variables Aquí z = xy, de donde resulta Z h(z) |dz| = z=xy f (x)g(y) |dxdy| , podemos pasar a variables a nuevas variables x = x, z = xy, 208 Método experimental para lo cual necesitamos el Jacobiano µ ∂x ∂x ¶ µ ¶ 1 0 ∂x ∂y det ∂z ∂z = det = x, y x ∂x ∂y siendo entonces dxdy = por lo tanto dxdz , x Z z dx f (x)g( ) , x x es la función distribución del producto. Nos interesa ahora calcular µz y σ 2z . Lo primero resultará h(z) = µz = = Z Z zf (x)g(y)dxdy Z xf (x)dx yg(y)dy = µx µy . Lo segundo es algo más complicado Z Z 2 σz = (z − µz )2 f (x)g(y)dxdy Z Z = z 2 f (x)g(y)dxdy − µ2z Z Z 2 = x f (x)dx y 2 g(y)dy − µ2z = E(x2 )E(y 2 ) − µ2z , pero E(x2 ) = σ 2x + µ2x , E(y 2 ) = σ 2y + µ2y , µz = µx µy , luego si se reemplaza resulta σ 2z = µ2y σ 2x + µ2x σ 2y + σ 2x σ 2y . Es necesario destacar que al menos en dos referencia ([?]), pag.48 y ([?]) pag. 185, se establece o se deduce incorrectamente que para este caso se tiene σ 2z = µ2y σ 2x + µ2x σ 2y . Sin embargo, para estar seguros, en el programa que se acompaña, se comparan ambas expresiones para variables aleatorias x, y generadas random uniforme. Usted podrá juzgar. 11.9 Propagación de errores 209 Cuociente de dos variables Aquí z = x/y, de donde resulta Z h(z) |dz| = z=x/y f (x)g(y) |dxdy| , podemos pasar a variables a nuevas variables x = x, z = x/y, para lo cual necesitamos el Jacobiano det µ ∂x ∂x ∂z ∂x ∂x ∂y ∂z ∂y ¶ siendo entonces dxdy = por lo tanto h(z) = = det µ 1 1 y 0 − yx2 ¶ =− x , y2 y 2 dxdz xdxdz = , x z2 Z x xdx f (x)g( ) 2 , z z es la función distribución del cuociente. Nos interesa ahora calcular µz y σ 2z . Ambas cosas son ahora obvias, pues el cuociente es además un producto, z = x(1/y) resultando µz = µx µ1/y . Si la notación es algo confusa, podemos escribir para el caso en que las variables aleatorias x, y son independientes 1 x E( ) = E(x)E( ). y y Lo segundo, el cálculo de la varianza, es σ 2z = σ 2x σ 21/y + µ21/y σ 2x + µ2x σ 21/y . 210 Método experimental Caso general de dos variables (Usted puede omitir esta sección) Aquí z = F (x, y), de donde resulta Z h(z) |dz| = f (x)g(y) |dxdy| , z=F (x,y) podemos pasar a nuevas variables x = x, z = F (x, y), para lo cual necesitamos el Jacobiano µ µ ∂x ∂x ¶ 1 ∂x ∂y = det ∂F det ∂z ∂z ∂x ∂x ∂y siendo entonces dxdz dxdy = ¯¯ ¯¯ , ¯ ∂F ∂y ¯ por lo tanto h(z) = Z 0 ∂F ∂y ¶ ¯ ¯ ¯ ∂F ¯ ¯ ¯, =¯ ∂y ¯ dx f (x)g(y) ¯¯ ¯¯ , ¯ ∂F ∂y ¯ siendo necesario despejar y(z, x) de z = F (x, y). Z dx h(z) = f (x)g(y(z, x)) , |Fy (x, y(z, x))| es la función distribución de z = F (x, y). Nos interesa ahora calcular µz y σ 2z . Lo primero resultará Z Z µz = F (x, y)f (x)g(y)dxdy. y lo segundo σ 2z = = Z Z Z Z (F (x, y) − µz )2 f (x)g(y)dxdy F 2 (x, y)f (x)g(y)dxdy − µ2z (11.1) 11.9 Propagación de errores 211 Aproximación para σ 2z Si se expande F (x, y) en serie de Taylor en torno a los valores esperados µx y µy se tiene F (x, y) = F (µx , µy ) + (x − µx )Fx + (y − µy )Fy + 1 ((x − µx )2 Fxx + (y − µy )2 Fyy + 2(x − µx )(y − µy )Fxy ) + · · · 2 de donde resultará 1 µz = F (µx , µy ) + (σ 2x Fxx (µx , µy ) + σ 2y Fyy (µx , µy )) + · · · 2 (11.2) similarmente calculemos F 2 (x, y), pero no consideraremos términos lineales en (x − µx ) ni en (y − µy ) pues darán cero al integrar, así resulta F 2 (x, y) = F 2 (µx , µy ) + (x − µx )2 Fx2 + (y − µy )2 Fy2 + 2 (x − µx )2 (y − µy )2 Fxy ··· , por lo tanto Z Z 2 ··· , F 2 (x, y)f (x)g(y)dxdy = F 2 (µx , µy ) + σ 2x Fx2 + σ 2y Fy2 + σ 2x σ 2y Fxy (11.3) luego resultará 2 , σ 2z = σ 2x (Fx2 − F Fxx ) + σ 2y (Fy2 − F Fyy ) + σ 2x σ 2y Fxy donde F y todas sus derivadas son evaluadas en el punto (µx , µy ). Como ejemplos si F es lineal F = ax + by resulta σ 2z = a2 σ 2x + b2 σ 2y . si F = xy resulta σ2z = µ2y σ 2x + µ2x σ 2y + σ 2x σ 2y si F = G(x)H(y) 212 Método experimental σ 2z = σ 2x H 2 (G02 − GG00 ) + σ 2y G2 (H 02 − HH 0 ) + σ 2x σ 2y G02 H 02 02 00 02 0 0 0 σ 2z 2 (G − GG ) 2 (H − HH ) 2 2 GH 2 ) = σ + σ + σ σ ( x y x y z2 G2 H2 GH µ 0¶ µ 0¶ 0 0 σ 2z G H 2 ∂ 2 ∂ 2 2 GH 2 = −σ σ ( − σ + σ ) x y x y z2 ∂x G ∂y H GH 11.10. Resumen Al margen de las demostraciones, los resultados que interesa destacar son los siguientes: Si la variable aleatoria x corresponde a diversas medidas de una cantidad física con errores al azar solamente, entonces esa variable tendría alguna determinada función de distribución de probabilidad, imposible de determinar teóricamente, más que haciendo un sinnúmero de mediciones y haciendo algún histograma experimental. El valor verdadero será el valor esperado µ de esa desconocida distribución de valores. El error absoluto de cada medida será simplemente i = xi − µ, El error estándar en una lectura cualquiera puede ser definido como la desviación estándar de esa distribución σ r 1X (xi − µ)2 , σ = lı́m n→∞ n valor imposible de determinar exactamente. Sin embargo, la variable aleatoria “promedio” tiene una función distribución teórica para n grande, la distribución Gaussiana. De allí se dedujo que si la variable aleatoria x corresponde a diversas medidas de una cantidad física con errores al azar solamente, entonces el valor verdadero µ de la cantidad física siendo medida está en el intervalo sn−1 sn−1 x̄ − zα √ < µ < x̄ + zα √ , con nivel de significación α, n n siendo 11.10 Resumen 213 el promedio x̄ = < x > = la desviación estándar sn−1 1X xi , n v u n u 1 X =t (xi − x̄)2 , n − 1 i=1 algunos valores de zα zα 1 2 3 α 0. 682 69 . 0. 954 5 0. 997 3 De modo que al utilizar el promedio como estimador del valor verdadero, el error se puede escribir como sn−1 ±zα √ . n Propagación de errores estándar. Si dos cantidades físicas A y B con errores aleatorios tienen valores verdaderos y errores estándar conocidos, es decir se conocen sus valores esperados µA , µB y sus varianzas σ 2A , σ 2B . Estas variables aleatorias las supondremos estadísticamente independientes. Entonces los valores verdaderos y los errores estándar de algunas funciones f (A, B), la suma, el producto y el cuociente, son los siguientes. La suma µA+B = µA + µB , q σ 2A + σ 2B . σ A+B = El producto µAB = µA µB , q σ AB = µ2A σ 2B + µ2B σ 2A + σ 2A σ 2B . 214 Método experimental El cuociente µA/B = µA µ1/B , q σ A/B = µ21/B σ 2A + µ2A σ 21/B + σ 2A σ 21/B . 11.10.1. Ejemplos de simulación numérica En el programa de ejemplo que se acompaña, usted puede definir una función de dos variables, f (x, y) y generar un histograma de su función distribución cuando las variables x, y tienen distribución uniforme de valor esperado y desviación estándar definible por el usuario. Capítulo 12 Métodos numéricos 12.1. Generación de números random Puede generar números random enteros o reales xi con distribución uniforme en un rango seleccionable [a, b], en un determinado número, y hacer algunas pruebas para comprobación de su calidad teórico simulación P 1 1 < x >= µ = 2 (a + b), xi n P 1 2 1 2 2 2 σ = 3 (a + ab + b ). sn−1 = n−1 (xi − < x >)2 12.2. Generación de N(0, 1) Como se explicó en el capítulo de probabilidades, si x, y son variables aleatorias alrededor en el intervalo [0, 1] , entonces √ con distribución uniforme √ las variables z = −2 ln x cos 2πy, y v = −2 ln x sin 2πy tienen distribución N(0, 1) 1 2 1 √ e− 2 z 2π Esto está realizado en el programa, para visualizar como el histograma se aproxima al de la distribución normal. 216 Métodos numéricos 12.3. Distribución del promedio Si las variables xi tienen distribución continua uniforme en el intervalo [a, b] entonces la variable aleatoria µ− < x > √ z= , σ/ n debe tener distribución normal N(0, 1) siendo µ = 12 (a + b), σ = 13 (a2 + ab + b2 ), 2 cuestión que es examinada en el programa, para diversos n contrastando el histograma obtenido con el esperado. 12.4. Distribución t Student Se examina la convergencia de la variable aleatoria x̄ − µ √ , t= sn−1 / n con µ = 12 (a + b), en términos del tamaño de la muestra a la distribución t de Student con n − 1 grados de libertad hn−1 (t) = Γ( n2 ) t2 −n/2 p ) , (1 + n − 1 Γ( n−1 ) π(n − 1) 2 12.5. Integración numérica. 12.5.1. Método del punto medio: Z a donde b f (x) dx ≈ Mn = ∆x[f (x1 ) + f (x2 ) + · · · + f (xn )] ∆x = y − ∞ < t < ∞. b−a n xi = 12 (xi−1 + xi ) es el punto medio de [xi−1 , xi ]. 12.6 Aproximaciones lineales y cuadráticas. 12.5.2. Zb 217 Método del Trapecio: f (x) dx ≈ Tn = ∆x [f (x0 ) + 2f (x1 ) + 2f (x2 ) + · · · + 2f (xn−1 ) + f (xn )] 2 a donde ∆x = (b − a)/n y xi = a + i ∆x 12.5.3. Cotas de error: Suponga que |f 00 (x)| ≤ K para a ≤ x ≤ b. Si ET y EM denotan los errores los métodos del trapecio y del punto medio entonces |ET | ≤ 12.5.4. Z a K(b − a)3 12n2 y |EM | ≤ K(b − a)3 24n2 Método de Simpson: b f (x) dx ≈ Sn = ∆x [f (x0 ) + 4f (x1 ) + 2f (x2 ) + 4f (x3 ) + · · · + 2f (xn−2 ) 3 +4f (xn−1 ) + f (xn )] donde n es par y ∆x = (b − a)/n. 12.5.5. Cota de error para método de Simpson: 12.6. Aproximaciones lineales y cuadráticas. 12.6.1. Diferencial: ¯ ¯ Suponga que ¯f (4) (x)¯ ≤ K para a ≤ x ≤ b. Si ES es el error en el método de Simpson, entonces K(b − a)5 |ES | ≤ 180n4 Definicion 12.6.1 Sea y = f (x), donde f es una función diferenciable. Entonces la diferencial dx es una variable independiente; esto es, dx puede ser 218 Métodos numéricos dada de cualquier valor. La diferencial dy es entonces definida en términos de dx por dy = f 0 (x) dx Los diferenciales dx y dy son ambos variables, pero dx es independiente, mientras que dy es dependiente– depende de los valores de x y dx. Si dx es dado, entonces dy está determinado. dy = f 0 (x). Esto es la derivada es la razón o Si dx 6= 0, obtenemos dx cuociente de dos diferenciales 12.6.2. Aproximación lineal: Definicion 12.6.2 La aproximación lineal de f (x) cerca de a es f (x) ≈ f (a) + f 0 (a)(x − a) 12.6.3. Aproximación cuadrática: Definicion 12.6.3 La aproximación cuadrática de f (x) cerca de a es f (x) ≈ f (a) + f 0 (a)(x − a) + Ejemplo 12.6.1 Sea f (x) = f 00 (a) (x − a)2 2 3x2 + 5 2x − 4 y a = 3. La aproximación lineal de f (x) cerca de 3 es f (a) + f 0 (a)(x − a) = 37 − 7x. y la aproximación cuadráticas es f (a) + f 0 (a)(x − a) + 17 f 00 (a) 227 (x − a)2 = − 58x + x2 . 2 2 2 . Las funciones y = (3x2 +5)/(2x−4), y = 37−7x, y = 227/2−58x+17x2 /2 están representadas en los gráficos 12.7 Ajuste de curvas por polinomios. 219 80 200 y -10 150 60 100 y 40 50 20 0 10 x 20 30 0 1 -50 2 x 3 4 -20 -100 40 30 y 20 10 0 2 2.5 3 x 3.5 4 4.5 -10 20 19 18 17 y 16 15 14 13 12 12.7. 2.8 2.9 3x 3.1 3.2 Ajuste de curvas por polinomios. Un gráfico de puntos podría mostrar evidencia de la existencia de una relación polinomial. Para polinomios de grados dos y tres eso significa la 5 220 Métodos numéricos existencia de ecuaciones de la forma y = A + Bx + Cx2 , o y = A + Bx + Cx2 + Dx3 Lo datos siguientes establecen claramente una relación no lineal. El método de los mínimos cuadrados puede usarse para ajustar un polinomio 8 6 4 2 -3 -2 -1 0 1 2 3 (−3, 7), (−2, 4), (−1, 2), (0, 0), (1, 1,5), (2, 5), (3, 10) El gráfico siguiente muestra el ajuste mediante una parábola (polinomio de grado 2, en verde) y un polinomio de grado tres (curva roja). 10 8 6 y 4 2 -3 -2 -1 0 1 x 2 3 Para grado 2, resuelva el sistema de ecuaciones lineales para A, B, C: X X X An + B X +C X2 = Y X X X X A X +B X2 + C X3 = XY X X X X A X2 + B X3 + C X4 = X 2Y 12.8 Método de Newton. 221 Para grado 3, resuelva el sistema de ecuaciones lineales para A, B, C, D: An X +B X X X +C X X X2 + D X X X3 = X X Y A X +B X2 + C X3 + D X4 = XY X X X X X A X2 + B X3 + C X4 + D X5 = X 2Y X X X X X A X3 + B X4 + C X5 + D X6 = X 3Y 12.8. Método de Newton. Muchos problemas en ciencia e ingeniería conducen a un problema de determinar las raíces de una ecuación de la forma f (x) = 0 donde f es una función diferenciable. Para una ecuación cuadrática ax2 + bx + c = 0 es bien conocido que ( √ x= 2 − b+ b2a−4ac , . − b+√b2c2 −4ac . Para ecuaciones de tercer y cuarto orden hay también fórmulas, pero que son complicadas. Si f es un polinomio de grado 5 o superior no existe tal fórmula. Asimismo no hay fórmulas que nos permitan encontrar raíces exactas de ecuaciones trascendentales como cos x = x. Métodos que permitan encontrar aproximaciones para las raíces de ecuaciones se han desarrollado. Uno de tales métodos se denomina método de Newton-Raphson. 12.8.1. Método de Newton-Raphson. El método de Newton se basa en la observación de que la línea tangente es una buena aproximación local a una función. Sea (x0 , f (x0 )) un punto de la curva. La línea tangente en ese punto será y − f (x0 ) = f 0 (x0 )(x − x0 ). Esta línea cruza el eje-x donde y = 0. El valor de x será x = x0 − f (x0 ) . f 0 (x0 ) 222 Métodos numéricos En general, dada una aproximación xn a una raíz de la función f (x), la línea tangente cruza el eje x donde f (xn ) . f 0 (xn ) xn+1 = xn − Dado x0 , el método de Newton produce una lista x1 , x2 , . . ., xn de aproximaciones al cero de f . En los gráficos que siguen, f (x) = x − x3 , x0 = 0,44, x1 ≈ −0,41, x2 ≈ 0,27, y x3 ≈ −0,048. 0.4 0.2 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 x 0.6 0.8 1 -0.2 -0.4 x − x3 12.9. Serie de Taylor y Maclaurin. Si f tiene una representación en serie en torno de a, o sea si f (x) = ∞ X n=0 cn (x − a)n |x − a| < R entonces los coeficientes son cn = f (n) (a) n! Substituyendo cn en la serie para f , se tiene la serie de Taylor: f (x) = ∞ X f (n) (a) n=0 n! (x − a)n = f (a)+ f 00 (a) f 0 (a) f 000 (a) (x − a)+ (x − a)2 + (x − a)3 +... 1! 2! 3! 12.9 Serie de Taylor y Maclaurin. 223 En el caso especial donde a = 0, se tiene la serie de Maclaurin: f (x) = ∞ X f (n) (0) n! n=0 xn = f (0) + f 00 (0) 2 f 000 (0) 3 f 0 (0) x+ x + x + ... 1! 2! 3! Funciones que pueden ser representadas por series de potencia en torno a a son llamadas analíticas en a. Funciones analíticas son infinitamente diferenciables en a; eso es que tiene derivadas de todo orden en a. Sin embargo, no todas las funciones infinitamente diferenciable son analíticas. Las sumas parciales de Taylor son Tn (x) = n X f (i) (a) i=0 i! f 0 (a) f (n) (a) f 00 (a) 2 (x − a) = f (a)+ (x − a)+ (x − a) +...+ (x − a)n 1! 2! n! i Tn es un polinomio de grado n llamado el polinomio de Taylor de grado n de f en a. I Teorema 12.1 Si f (x) = Tn (x) + Rn (x), y lı́m Rn (x) = 0 n→∞ para |x − a| < R, entonces f es igual a su serie de Taylor series en el intervalo |x − a| < R; esto es , f es analítica en a. I Teorema 12.2 (Fórmula de Taylor) Si f tiene n +1 derivadas en el intervalo I que contiene el número a, entonces para x en I hay un número z estrictamente entre x y a tal que el resto puede ser expresado como Rn (x) = f (n+1) (z) (x − a)n+1 (n + 1)! Para el caso especial n = 0, se tiene que f (b) = f (a) + f 0 (c) (b − a) este es el Teorema del valor medio. 224 Métodos numéricos 12.9.1. Serie importantes de Maclaurin. 1 1−x Serie de Maclaurin ∞ P = xn = 1 + x + x2 + x3 + ... n=0 ∞ n P 2 3 x ex = = 1 + 1!x + x2! + x3! + ... n! n=0 ∞ P 3 5 7 x2n+1 sin x = (−1)n (2n+1)! = x − x3! + x5! − x7! + ... n=0 ∞ P 2 4 6 x2n cos x = (−1)n (2n)! = 1 − x2! + x4! − x6! + ... n=0 ∞ P 2n+1 3 5 7 −1 tan x = (−1)n x2n+1 = x − x3 + x5 − x7 + ... n=0 12.10. Intervalo de Convergencia (−1, 1) (−∞, ∞) (−∞, ∞) (−∞, ∞) [−1, 1] Ecuaciones diferenciales ordinarias. El problema clásico de la ecuación diferencial ordinaria de primer orden es encontrar una función y(x) que satisfaga dy = f (x, y), dx dado el valor inicial de la función y(x0 ) = y0 . Una variedad de métodos aproximados se han desarrollado, entre los cuales describiremos algunos. 12.10.1. Método de Euler. Se reemplaza la derivada por dy(x) y(x + h) − y(x) = , dx h siendo h algún número pequeño. Así la ecuación diferencial se transforma en una ecuación de diferencias y(x + h) = y(x) + hf (x, y). Si llamamos xk+1 = xk + h, tenemos que y(xk+1 ) = y(xk ) + hf (xk , yk ). 12.10 Ecuaciones diferenciales ordinarias. 12.10.2. 225 Método de Runge-Kutta. Si h es un número pequeño y se definen k1 k2 k3 k4 = = = = hf (x, y), hf (x + h/2, y + k1 /2), hf (x + h/2, y + k2 /2), hf (x + h, y + k3 ), entonces y(x + h) = y(x) + (k1 + 2k2 + 2k3 + k4 )/6. 12.10.3. Métodos predictor corrector. Los métodos predictor corrector hacen uso de una fórmula para una primera aproximación de yk+1 , seguida de una fórmula correctora que hace mejoramientos sucesivos. Así por ejemplo una primera aproximación es 0 yk+1 = yk + hyk0 , que puede ser mejorada con 1 0 1 = yk + (yk+1 + yk0 ) yk+1 2 1 0 = yk + (f (xk+1 , yk+1 ) + f (xk , yk )). 2 12.10.4. Método de Milne: Este método requiere cuatro valores previos y la pareja predictora correctora es 0 0 yk+1 = yk−3 + (4h/3)(2yk−2 − yk−1 + 2yk0 ), 0 0 + 4yk0 + yk−1 ). yk+1 = yk−1 + (h/3)(yk+1 12.10.5. Método de Adams. 0 0 0 yk+1 = yk−3 + (h/24)(55yk0 − 59yk−1 + 37yk−2 − 9yk−3 ), 0 0 0 0 yk+1 = yk−1 + (h/24)(9yk+1 + 19yk − 5yk−1 + yk−2 ), que al igual que el método de Milne requiere de cuatro valores previos. 226 Métodos numéricos 12.10.6. Ecuaciones de orden mayor. La ecuación lineal d2 y dy ), = f (x, y, dx2 dx se reduce a un sistema de ecuaciones de primer orden. Para ello defina p = dy/dx y entonces dy = p, dx dp = f (x, y, p), dx es un sistema de ecuaciones diferenciales de primer orden, que es resuelto similarmente adaptando los métodos anteriores. 12.11. Derivación numérica. Si tenemos una función conocida para valores discretos igualmente espaciados de las abcisas xi con xi+1 − xi = h, entonces existen algoritmos que permiten estimar la derivada de distinto orden, utilizando determinado número de puntos.Las siguientes fórmulas (Handbook of Mathematical functions de Abramowitz) indican la forma de obtener la derivada con tres o cuatro puntos correspondientes a abscisas igualmente espaciadas en una cantidad pequeña h. Dos puntos. Tenemos las tres posibilidades (f (x + h) − f (x))/h, 0 (f (x) − f (x − h))/h, f (x) = (f (x + h) − f (x − h))/2h. Tres puntos, p = −1, 0, 1. ¶ µ 1 1 1 f (x0 + ph) = (p − )f−1 − 2pf0 + (p + )f1 . h 2 2 0 Cuatro puntos, p = −1, 0, 1, 2 f 0 (x0 + ph) = 1 3p3 − 6p + 2 3p2 − 4p − 1 3p2 − 2p − 2 (− f−1 + f0 − f1 h 6 2 2 3p2 − 1 f2 ). + 6 Capítulo 13 Apéndice 13.1. A) La distribución exponencial. El análisis, que requiere conocimientos de matemáticas algo elevados y que conduce a la distribución exponencial es el siguiente. Si la probabilidad de que un dispositivo falle en entre tiempo t y tiempo t + dt, por hipótesis es f (t)dt será igual al producto de que no haya fallado en el intervalo t : 0 −→ t, y falle a continuación, es decir µ ¶ Z t dt f (t)dt = 1 − f (τ ))dτ , µ 0 de aquí f (t) df (t) =− , dt µ e integrando t f (t) = ce− µ , normalización (certeza que falle alguna vez) requiere que Z ∞ t ce− µ dt = µc, 1= 0 228 Apéndice de donde finalmente f (t) = 13.2. 1 − µt e , µ B) El proceso de Poisson. Detalles. Consideremos una fuente radioactiva que emite partículas α y definamos una variable aleatoria X(t1 , t2 ) como el número de partícula emitidas durante un intervalo de tiempo [t1 , t2 ] . Como se explicó, denotaremos tal función de distribución por Pn (t1 , t2 ) = P [X(t1 , t2 ) = n] . Nos proponemos deducir la distribución de probabilidad para la variable aleatoria recién definida haciendo algunas hipótesis. (Este es un ejemplo donde la naturaleza intrínsecamente probabilista de la naturaleza se pone de manifiesto). Las suposiciones que haremos son las siguientes Caso 4 Las variables X(t1 , t2 ) y X(t3 , t4 ) son independientes si los intervalos de tiempo tienen intersección vacía. La función distribución de X(t1 , t2 ) depende sólo de t2 − t1 . (caso contrario tendríamos que preocuparnos de cuando fue creada tal substancia radioactiva, para empezar a contar el tiempo). Por lo tanto llamaremos simplemente t al intervalo de tiempo Si el intervalo de tiempo es pequeño, supondremos que la función de distribución para que haya una emisión es proporcional al intervalo de tiempo. Es decir P1 (dt) = P [X(dt) = 1] = λdt. Supondremos también que si el intervalo de tiempo es infinitésimo, la probabilidad de tener más de una emisión es despreciable, es decir Pk (dt) = P [X(dt) = k] = 0 si k > 1. También, la probabilidad de que no haya ninguna emisión en dt de tiempo será P0 (dt) = 1 − λdt, de modo que conocemos P0 para tiempos pequeños. 13.2 B) El proceso de Poisson. Detalles. 229 De acuerdo a lo anterior, la probabilidad de tener n + 1 emisiones en un tiempo t+dt, es el producto de tener n emisiones en un tiempo t, multiplicada por la probabilidad de tener una emisión en el intervalo dt, (o bien, por ello +) la probabilidad de tener n + 1 emisiones en tiempo t y ninguna en dt, es decir Pn+1 (t + dt) = Pn (t)λdt + Pn+1 (t)(1 − λdt), se ha obtenido una ecuación funcional para determinar Pn (t). Sin embargo la probabilidad de no tener una emisión en tiempo t + dt es simplemente la probabilidad de no emisión en tiempo t multiplicada por la probabilidad de no emisión en tiempo dt, es decir P0 (t + dt) = P0 (t)(1 − λdt), que puede ser resuelta pues se obtiene dP0 (t) = −λP0 (t), dt o bien, mediante una integración P0 (t) = P0 (0)e−λt . Considere ahora que 0 (t)dt, Pn+1 (t + dt) = Pn+1 (t) + Pn+1 resultando 0 (t) = λPn (t) − λPn+1 (t), Pn+1 sea Pn (t) = gn (t)e−λt , con g0 (t) = P0 (0), resulta 0 gn+1 = λgn (t), puede integrarse recursivamente obteniendo g1 (t) = λP0 (0)t, y g2 (t) = 1 2 λ P0 (0)t2 , 2! 230 Apéndice y finalmente Pn (t) = 1 n λ P0 (0)tn e−λt , n! normalización exige que n=∞ X Pn (t) = 1, n=0 resultando P0 (0) = 1, y finalmente Pn (t) = 13.3. 1 (λt)n e−λt , n! C) Algunos detalles matemáticos. Aquí se explican los detalles para el caso en que las variables xi£ (i = ¤ 1, 2, · · · N) son independientes con distribución uniforme en el intervalo − µ2 , µ2 , y se desea obtener la distribución de la variable aleatoria N 1 X xi x= √ N i=1 en el límite para N muy grande. (Estos detalles requieren de sólidos conocimientos de matemáticas que si usted desea puede omitir) Haciendo uso de la independencia de las variables, podemos entonces escribir la expresión Z Z P (x1 )dx1 P (x2 )dx2 P (xN )dxN ··· f (x)dx = · · · µ µ µ donde la integral múltiple es sobre la región donde N 1 X dx = √ dxi N i=1 y x < − 12 µ 0 si 1 1 si − 2 µ < x < 12 µ P (x) = 0 si x > 12 µ 13.3 C) Algunos detalles matemáticos. 231 la integral puede ser reducida a todo el espacio usando la delta de Dirac una de cuyas representaciones que usaremos es Z ∞ 1 eikx dk, δ(x) = 2π −∞ de modo que f (x)dx = Z 1 µ 2 − 12 µ ··· Z 1 µ 2 − 12 µ P (x1 )dx1 P (x2 )dx2 P (xN )dxN ··· µ µ µ N 1 X δ(x − √ xi )dx, N i=1 pero 1 f (x)dx = 2π Z ∞ ikx e dk Z 1 µ 2 − 12 µ −∞ P (xN )dxN − √i e N µ PN ··· j=1 xj Z 1 µ 2 − 12 µ P (x1 )dx1 P (x2 )dx2 ··· µ µ dx, que puede ser escrita como 1 f (x) = 2π !N à Z 1 µ 2 1 1 −ik √ z N eikx dk dze , 1 µ −∞ −2µ Z ∞ pero 1 µ Z 1 µ 2 −ik √1 z e N − 12 µ √ µk 2 N sin √ , dz = µk 2 N luego 1 f (x) = 2π !N à √ N µk 2 sin √ eikx dk µk 2 N −∞ Z ∞ para evaluar el límite cuando N −→ ∞, usemos la expansión sin z = z − 16 z 3 , de modo que resulta 232 Apéndice 1 f (x) = 2π Z ∞ ikx e −∞ µ ¶N 1 µ2 k2 dk 1 − , 24 N o bien 1 2π Z ∞ eikx− µ2 k2 24 dk, −∞ que es evaluada mediante tablas √ 2 1 − 6x 24 2 √ e µ µ 2 π pero 1 V ar(x) = σ = µ 2 Z 1 µ 2 x2 dx = − 12 µ 1 2 µ, 12 por lo cual x2 1 e− 2σ2 , f (x) = √ 2πσ 13.4. D) La distribución binomial. Si se repite varias veces el experimento donde hay dos resultados posibles A con probabilidad p y B con probabilidad q = 1−p, entonces la probabilidad de que en n experimentos ocurran m resultados A, en cualquier orden, es la llamada distribución binomial µ ¶ n mn−m n! P = p pm q n−m . = (13.1) m m!(n − m)! Podemos verificar que está correctamente normalizada pues n µ ¶ X n m n−m = (p + q)n = 1. p q m m=0 13.4 D) La distribución binomial. 13.4.1. 233 El valor esperado de m. Su definición es µ ¶ n m n−m m , E(m) = p q m m=0 n X que puede ser evaluado mediante un truco. En efecto µ ¶ n n µ ¶ X n m−1 n−m ∂ X n m n−m p q m p q =p E(m) = p ∂p m=0 m m m=0 = p ∂ (p + q)n = np(p + q)n−1 = np, ∂p finalmente E(m) = np. 13.4.2. La varianza de m. Debemos calcular µ ¶ n m n−m p q m , E(m ) = m m=0 2 n X 2 sumatoria más dificil de calcular. Similarmente a lo hecho anteriormente µ ¶ n X 2 2 n m E(m ) = p pm−1 q n−m m m=0 µ ¶ n ∂ X n m n−m = p m p q ∂p m=0 m µ ¶ n ∂ X n m−1 n−m = p p m q p ∂p m=0 m n µ ¶ ∂ ∂ X n m n−m = p p p q ∂p ∂p m=0 m ∂ ∂ p (p + q)n ∂p ∂p ∂ = np p(p + q)n−1 ∂p = np((p + q)n−1 + (n − 1)p(p + q)n−2 ), = p 234 Apéndice pero p + q = 1, luego E(m2 ) = np(1 + (n − 1)p). Entonces σ 2m = = = = Para p = q = 1 2 E(m2 ) − (E(m))2 np(1 + (n − 1)p) − n2 p2 np(1 − p) = npq, E(m)(1 − p) se tiene que 1 n, 2 1 = n. 4 E(m) = σ 2m 13.4.3. Límite para n grande Considere (13.1) y tomemos su logaritmo y(m) = ln P = ln n! − ln m! − ln(n − m)! + m ln p + (n − m) ln q, y usemos la aproximación de Stirling para números grandes ln n! = n ln n − n, entonces y(m) = n ln n − m ln m − (n − m) ln(n − m) + m ln p + (n − m) ln q. Para expandir en torno al máximo derivemos respecto a m y 0 (m) = − ln m + ln (n − m) + ln p − ln q, n y 00 (m) = − . m (n − m) 13.4 D) La distribución binomial. 235 El máximo ocurre cuando y 0 (m0 ) = 0 o sea m0 = np = µm . La expansión buscada será n 1 (m − m0 )2 , 2 m0 (n − m0 ) 1 1 (m − m0 )2 , = y(m0 ) − 2 npq 1 1 = y(m0 ) − (m − µm )2 , 2 σ 2m y(m) = y(m0 ) − de modo que finalmente − 12 P (m) = Ce 1 1 (m−µm )2 σ2 m 1 , 2 P (m) = Ce− 2 npq (m−np) , es decir, una distribución Gaussiana. 13.4.4. Caminata al azar Como un ejemplo, analizaremos la caminata al azar, donde un punto puede moverse a la derecha o hacia la izquierda con probabilidad p a la derecha y q hacia la izquierda, con longitud de pasos pequeña d, y deseamos encontrar la función distribución de probabilidad de su posición x, cuando los pasos son de longitud d y han ocurrido N pasos en total Para m pasos a la derecha y por lo tanto N − m pasos a la izquierda, la posición x estará dada por x = {m − (N − m)} d = {2m − N } d, y la probabilidad de este valor de x estará dado por la distribución binomial µ ¶ N m N−m N! P = p q pm q N−m . = m m!(N − m)! Expresemos esto en términos de la variable x. Tenemos que N x + , 2 2d N x N −m = − . 2 2d m = 236 Apéndice En particular si los pasos a la derecha y a la izquierda ocurren con la misma probabilidad entonces 1 p=q= , 2 y tendremos N! 1 PN (x) = N ( )N . x N x ( 2 + 2d )!( 2 − 2d )! 2 A medida que la longitud de los pasos tiende a cero, y el número de pasos tiende a infinito, la variable x tiende a ser una variable continua. En forma más precisa buscaremos el límite cuando N → ∞, tendiendo d → 0 en la forma σ d= √ . N Luego la probabilidad de que la variable x tenga valores entre x = {2m − N} d y x = {2m + 2 − N} d, es decir en el intervalo 2σ dx = 2d = √ N en torno de x será 2σ f (x)dx = f (x) √ = N (2 + N N! x )!( N2 2d − x )! 2d 1 ( )N 2 de donde (el álgebra es algo tediosa) √ N! 1 N ( )N f (x) = N x N x 2σ ( 2 + 2d )!( 2 − 2d )! 2 √ N! N 1 √ √ = ( )N N x N x 2σ ( 2 + 2σ N)!( 2 − 2σ N)! 2 √ N! N 1 = ( )N N x N x 2σ ( 2 (1 + σ√N )!( 2 (1 − σ√N )! 2 cuestión sobre la que tomaremos el límite cuando N → ∞. Para ello usaremos la llamada aproximación de Stirling √ n! → 2πnnn e−n 13.4 D) La distribución binomial. 237 podemos aproximar r N N N N N 2π (1 + )( (1 + )) 2 (1+ ) e− 2 (1+ ) ( (1 + ))! = 2 2 r 2 N N N N N ( (1 − ))! = 2π (1 − )( (1 − )) 2 (1− ) e− 2 (1− ) 2 2 2 y entonces N ( ) √ N (1 + ) 2 N N N −N ( (1 + ))!( (1 − ))! = πN 1 − 2 ( )N (1 − 2 ) 2 N( ) e 2 2 2 2 (1 − ) √ N −N N! = 2πNN e resultando N( ) √ √ 1 N 2πNN N (1 − ) 2 ( )N f (x) = = √ N N N 2σ πN 1 − 2 ( )N (1 − 2 ) 2 (1 + ) 2 ( ) 2 2 x N( √ √ 2 σ N) x √ 2π(1 − ) 1 σ N = √ 2 x 2σ π 1 − 2 (1 − 2 ) N2 (1 + √x ) N2 ( σ√xN ) σ N σ N = x √ ) σ N (1 − 1 √ σ 2π (1 − x22 ) N2 (1 + σ N x √ x N 2σ √ x N x √ ) 2σ σ N x 2 (e− σ ) 2σ 1 1 − x2 2σ . √ √ = = e 2 σ 2π e− 2σx 2 (e σx ) 2σx σ 2π Donde hemos usado x N ) → ex . N Sorprendentemente, hemos encontrado que se trata de la distribución normal. (1 + x2 1 f (x) = √ e− 2σ2 . 2πσ con valor esperado cero y desviación estándar σ. Para efectos de hacer cálculos numéricos √ σ=d N √ con N grande debemos hacer pasos pequeños d = σ/ Ncon σ arbitrario.