CORRELACIÓN Y PREDICIÓN 1. 2. 3. 4. 5. Introducción Curvas de regresión Concepto de correlación Regresión lineal Regresión múltiple INTRODUCCIÓN: Muy a menudo se encuentra en la práctica que existe una relación entre dos (o más) variables. Por ejemplo: los pesos de los hombres adultos dependen en cierto modo de sus alturas; las longitudes de las circunferencias y las áreas de los círculos dependen del radio, y la presión de una masa de gas depende de su temperatura y de su volumen. Si todos los valores de las variables cumplen exactamente una relación exacta, entonces se dice que las variables están perfectamente correlacionadas o que hay una correlación perfecta entre ellas. Por el contrario, si se lanzan simultáneamente dos dados unas cuantas veces, no existirá una relación entre los puntos que se obtengan en cada dado (salvo que los dados estén cargados), es decir no existirá correlación entre las puntuaciones de cada dado. En otros casos, parece que existe cierta correlación, aunque ésta no sea perfecta. Por ejemplo, las variables altura y peso de los individuos parecen tener cierto grado de relación aunque no exista una fórmula que nos permita adivinar el peso de un individuo conocida su altura. Cuando sobre una población estudiamos simultáneamente los valores de dos variables estadísticas, el conjunto de los pares de valores correspondientes a cada individuo se denomina distribución bidimensional. Es frecuente que estudiemos sobre una misma población los valores de dos variables estadísticas distintas, con el fin de ver si existe alguna relación entre ellas, es decir, si los cambios en una de ellas influyen en los valores de la otra. Si ocurre esto decimos que las variables están correlacionadas o bien que hay correlación entre ellas. La primera forma de describir una distribución bidimensional es representar los pares de valores en el plano cartesiano. El gráfico obtenido recibe el nombre de nube de puntos o diagrama de dispersión. Ejemplo: Las notas de 10 alumnos en Matemáticas y en Lengua vienen dadas en la siguiente tabla: MATEMÁTICAS LENGUA 2 2 4 2 5 5 5 6 6 5 6 7 7 5 7 8 8 7 9 10 Los pares de valores {(2,2),(4,2),(5,5),.. .;(8,7),(9,10)}, forman la distribución bidimensional. Cuando observamos una nube de puntos podemos apreciar si los puntos se agrupan cerca de alguna curva. Aquí nos limitaremos a ver si los puntos se distribuyen alrededor de una recta. Si así ocurre diremos que hay correlación lineal. La recta se denomina recta de regresión. Hablaremos de correlación lineal fuerte cuando la nube se parezca mucho a una recta y será cada vez más débil (o menos fuerte) cuando la nube vaya extendiéndose con respecto a la recta. En el gráfico observamos que en nuestro ejemplo la correlación es bastante fuerte, ya que la recta que hemos dibujado está próxima a los puntos de la nube. Cuando la recta es creciente la correlación es positiva o directa: al aumentar una variable, la otra tiene también tendencia a aumentar, como en el ejemplo anterior. Cuando la recta es decreciente la correlación es negativa o inversa: al aumentar una variable, la otra tiene tendencia a disminuir. Ejemplo: Una persona se entrena para obtener el carnet de conducir repitiendo un test de 50 preguntas. En la gráfica se describen el nº de errores que corresponden a los intentos realizados. Observa que hay una correlación muy fuerte (los puntos están "casi" alineados) y negativa (la recta es decreciente). Ejemplo: A 12 alumnos de un centro se les preguntó a qué distancia estaba su residencia del Instituto, con fin de estudiar se esta variable estaba relacionada con la nota media obtenida. Se obtuvieron los datos que figuran en la siguiente tabla: Distancia (en km) 0,05 0,1 0,12 0,4 0,5 0,7 1 Nota media 8,4 4 5,7 1,2 2,1 2,5 3 3 9,1 6,3 6,7 4,3 5,4 7,8 4,5 7,2 8,1 Observamos una nube de puntos que no nos sugiere ninguna recta concreta, porque la correlación es prácticamente inexistente, es decir, no tiene nada que ver con el rendimiento académico la distancia del domicilio al instituto, ESTIMACIÓN MEDIANTE LA RECTA DE REGRESIÓN Es evidente que no todos dibujaríamos exactamente la misma recta para una nube de puntos, aunque la correlación fuera bastante fuerte. De todas las rectas posibles los matemáticos han elegido como la mejor aproximación la llamada de los mínimos cuadráticos, Su cálculo es también algo mecánico que podemos hacer con calculadora o un ordenador. En el siguiente apartado encontrarás un ejercicio para estudiar sus propiedades. La recta de regresión sirve para hacer estimaciones, teniendo en cuenta que: • Los valores obtenidos son aproximaciones en términos de probabilidad: es probable que el valor correspondiente a x0 sea y0. • La fiabilidad es mayor cuanto más fuerte sea la correlación. • La fiabilidad aumenta al aumentar el número de datos. • La estimación es más fiable para los valores de x próximos a la media. Ejemplo: Con los datos del primer ejemplo, (las notas de 10 alumnos en Matemáticas y en Lengua), podemos contestar con aproximación a la siguiente cuestión: si un alumno no realizó el examen de lengua, pero sí el de matemáticas, obteniendo un 7, ¿qué nota cabe esperar que obtuviera en lengua? MATEMÁTICAS 2 4 5 5 6 6 7 7 8 9 LENGUA 2 2 5 6 5 7 5 8 7 10 Observa el punto amarillo, cuya abscisa corresponde a la nota de matemáticas y su ordenada a la nota que esperamos que tenga en lengua. Es resultado es aproximado y relativamente fiable, ya que la correlación es fuerte Y el valor de la nota no está muy próximo a la media, aunque el nº de datos que tenemos no es muy alto. Regresión lineal Si representamos en un gráfico los pares de valores de una distribución bidimensional: la variable "x" en el eje horizontal o eje de abcisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue una tendencia lineal: El coeficiente de correlación lineal nos permite determinar si, efectivamente, existe relación entre las dos variables. Una vez que se concluye que sí existe relación, la regresión nos permite definir la recta que mejor se ajusta a esta nube de puntos. Una recta viene definida por la siguiente fórmula: y = a + b · x Regresión Múltiple La regresión múltiple es la extensión de la regresión simple, para tomar en cuenta mas de una variable independiente X. Evidentemente, se trata de la técnica adecuada cuando se desea investigar el efecto simultaneo sobre Y de varias variables X. A pesar de ello, inclusive si esta interesado en el efecto de una sola variable, por lo general, se desea incluir otras variables en un análisis de regresión múltiple, por dos razones: a. En estudios de observación, es esencial eliminar el sesgo de algunas de las variables de confusión al incluirlas como regresores. b. Tanto en estudios de observación como en experimentos aleatorizados, la inclusión de variables adicionales como regresores puede reducir la varianza residual s2 y, por tanto, mejorar los intervalos de confianza y los ensayos, como si se incluyesen pruebas ANOVA reforzadas con un segundo factor.