Distribuciones bidimensionales Correlación Regresión Lineal Relación estadística y relación funcional Relación funcional: se verifican siempre globalmente y para cada valor en particular. Relación estadística: sólo se verifican globalmente y para cada valor en particular la respuesta puede ser múltiple. Relación estadística: correlación Las relaciones estadísticas de alguna manera están sujetas al azar y son efectos de muchas causas. La Estadística es capaz de dar respuestas a muchos de los problemas. Para referirnos a relación estadística entre variables utilizamos el término correlación. distribución bidimensional ( x1 , y1 ) ( x2 , y 2 ) ( x3 , y3 ) diagrama de dispersión nube de puntos y . . . ( xn , y n ) x Alumno Matemática Química Geología a 2 1 2 b 3 3 5 c 4 2 7 d 4 4 8 e 5 4 5 f 6 4 3 g 6 6 4 h 7 4 6 i 7 6 7 j 8 7 5 k 10 9 5 l 10 10 9 Alumno Matemática Química Geología a 2 1 2 b 3 3 5 c 4 2 7 d 4 4 8 e 5 4 5 f 6 4 3 g 6 6 4 h 7 4 6 i 7 6 7 j 8 7 5 k 10 9 5 l 10 10 9 Tratamiento estadístico de datos bidimensionales n n x i x i 1 y x n n 2 i i 1 n i i 1 n n sx y x 2 sy yi i 1 n 2 y 2 La covarianza n x x y i sx y i y i 1 n n x i sx y i 1 n yi x y Interpretación de la covarianza Interpretación de la covarianza n x i 1 i x yi y Una covarianza grande y positiva (muchos puntos en el primer y tercer cuadrante) estará asociada a una fuerte correlación positiva. Interpretación de la covarianza Interpretación de la covarianza n x i 1 i x yi y Una covarianza grande y negativa (muchos puntos en el segundo y cuarto cuadrante) estará asociada a una fuerte correlación negativa. Interpretación de la covarianza s xy 0 s xy 0 En consecuencia el signo de la covarianza determina el sentido de la correlación. La correlación será más fuerte en la medida que la covarianza sea más grande. Inconvenientes de la covarianza Los puntos más alejados de la nube influyen más en su valor y signo que los centrales. Esta influenciada medición. por la escala de Tabla de cálculos Sumas x y x2 x1 y1 x1 2 y1 2 x1 y1 x2 y1 x1 2 y1 2 x1 y1 xn yn 2 xn x i 1 Promedios n n y i i 1 n x x i 1 n x i i 1 y y i 1 x i 1 i 1 y i i 1 s x2 n x i i 1 i x2 n x i 1 n s y2 x i i 1 i x 2 sy i yi n 2 i y2 n n 2 yi n y i 1 i n 2 n 2 n sx xn yn n x i 1 2 n 2 n Desvíos Estándares Marginales y i n n Varianzas y Covarianza n 2 n i xy 2 yn n n i y2 y i 1 n 2 i y2 s xy x i 1 i n yi x y Coeficiente de correlación lineal r sx y sx s y Propiedades del coeficiente El signo de r coincide con el signo de la covarianza r no esta influenciado por los valores extremos r no se altera cuando se realiza un cambio de escala. r esta siempre ente –1 y +1 , es decir 1 r 1 Propiedades del coeficiente r próximo a +1 ó –1 significa que hay correlación lineal fuerte. r 1 Correlación lineal negativa r 1 Propiedades del coeficiente r próximo a 0 significa que hay correlación lineal débil. r0 Correlación no lineal r0 Propiedades del Coeficiente r > 0, correlación directa. Al aumentar una variable cabe esperar un aumento de la otra. Propiedades del Coeficiente r < 0, correlación inversa. Al aumentar una variable disminuye la otra. Propiedades del Coeficiente r=1 r=-1 r = 1 ó r = -1 significa que la correlación lineal es perfecta para los datos analizados. Coeficiente de correlación lineal Recta de regresión mínimo cuadrática di d2 d3 d1 di: la ordenada yi menos la ordenada de la recta a xi b d i yi a xi b Minimizar f ( a, b) n y (a xi b) 2 i i 1 La recta que minimiza la suma de los cuadrados de los residuos pasa por el centro de gravedad de distribución es decir pasa por el punto de coordenadas ( x, y) y tiene pendiente a s xy 2 sx r sy sx Ecuación punto –pendiente yy r sy sx (x x) Ecuación pendiente – ordenada al origen y a x b n xi yi xi yi i 1 i 1 a i 1 2 n n 2 n xi xi i 1 i 1 n n n n b n n yi xi xi xi yi i 1 i 1 i 1 2 n n 2 n xi xi i 1 i 1 n i 1 2 Observaciones La recta de regresión sirve para predecir la variable dependiente y por eso suele hablarse de recta de regresión de y sobre x. Al usar la recta de regresión para predecir un resultado y se corre un riesgo, éste aumenta a medida que nos alejamos del valor central. Observaciones Si la recta se ajusta a la nube de puntos indica que la correlación es fuerte. Observaciones La pendiente de la recta tiene el mismo signo que el coeficiente de correlación. Operaciones Mensuales en una Empresa de Transporte de Pasajeros. Costos Millas Mes Nº 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Totales Vehículo (miles) (miles) Y X 213.9 3147 212.6 3160 215.3 3197 215.3 3173 215.4 3292 228.2 3561 245.6 4013 259.9 4244 250.9 4159 234.5 3776 205.9 3232 202.7 3141 198.5 2928 195.6 3063 200.4 3096 Mes Nº 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 Y 200.1 201.5 213.2 219.5 243.7 262.3 252.3 224.4 215.3 202.5 200.7 201.8 202.1 200.4 209.3 213.9 227.0 246.4 X 3096 3158 3338 3492 4019 4394 4251 3844 3276 3184 3037 3142 3159 3139 3203 3307 3585 4073 Resumen univariado Costos Millas Media 219,1242424 3450,87879 Error típico 3,424541084 74,5767319 Mediana 213,9 3232 Moda 215,3 3096 Desviación estándar 19,67249079 428,410708 Varianza de la muestra 387,0068939 183535,735 -0,435732103 -0,53039194 0,867980969 0,9543273 Rango 66,7 1466 Mínimo 195,6 2928 Máximo 262,3 4394 7231,1 113879 33 33 Curtosis Coeficiente de asimetría Suma Cuenta y= 0,045 x + 64,963 25,84 x, y (3450.87 ;219.124) 549,13 r = 0.98