CORRELACIÓN Y PREDICIÓN INTRODUCCIÓN:

Anuncio
CORRELACIÓN Y PREDICIÓN
1.
2.
3.
4.
5.
Introducción
Curvas de regresión
Concepto de correlación
Regresión lineal
Regresión múltiple
INTRODUCCIÓN:
Muy a menudo se encuentra en la práctica que existe una relación entre dos (o más) variables. Por
ejemplo: los pesos de los hombres adultos dependen en cierto modo de sus alturas; las longitudes de las
circunferencias y las áreas de los círculos dependen del radio, y la presión de una masa de gas depende
de su temperatura y de su volumen.
Si todos los valores de las variables cumplen exactamente una relación exacta, entonces se dice que las
variables están perfectamente correlacionadas o que hay una correlación perfecta entre ellas.
Por el contrario, si se lanzan simultáneamente dos dados unas cuantas veces, no existirá una relación
entre los puntos que se obtengan en cada dado (salvo que los dados estén cargados), es decir no existirá
correlación entre las puntuaciones de cada dado.
En otros casos, parece que existe cierta correlación, aunque ésta no sea perfecta. Por ejemplo, las
variables altura y peso de los individuos parecen tener cierto grado de relación aunque no exista una
fórmula que nos permita adivinar el peso de un individuo conocida su altura.
Cuando sobre una población estudiamos simultáneamente los valores de dos variables estadísticas, el
conjunto de los pares de valores correspondientes a cada individuo se denomina distribución
bidimensional.
Es frecuente que estudiemos sobre una misma población los valores de dos variables estadísticas
distintas, con el fin de ver si existe alguna relación entre ellas, es decir, si los cambios en una de ellas
influyen en los valores de la otra. Si ocurre esto decimos que las variables están correlacionadas o
bien que hay correlación entre ellas.
La primera forma de describir una distribución bidimensional es representar los pares de valores en el
plano cartesiano. El gráfico obtenido recibe el nombre de nube de puntos o diagrama de dispersión.
Ejemplo:
Las notas de 10 alumnos en Matemáticas y en Lengua vienen dadas en la siguiente tabla:
MATEMÁTICAS
LENGUA
2
2
4
2
5
5
5
6
6
5
6
7
7
5
7
8
8
7
9
10
Los pares de
valores
{(2,2),(4,2),(5,5),..
.;(8,7),(9,10)},
forman la
distribución
bidimensional.
Cuando observamos una nube de puntos podemos apreciar si los puntos se agrupan cerca de alguna
curva. Aquí nos limitaremos a ver si los puntos se distribuyen alrededor de una recta. Si así ocurre
diremos que hay correlación lineal. La recta se denomina recta de regresión.
Hablaremos de correlación lineal fuerte cuando la nube se parezca mucho a una recta y será cada vez
más débil (o menos fuerte) cuando la nube vaya extendiéndose con respecto a la recta.
En el gráfico observamos que en nuestro ejemplo la correlación es bastante fuerte, ya que la recta que
hemos dibujado está próxima a los puntos de la nube.
Cuando la recta es creciente la correlación es positiva o directa: al aumentar una variable, la otra tiene
también tendencia a aumentar, como en el ejemplo anterior. Cuando la recta es decreciente la
correlación es negativa o inversa: al aumentar una variable, la otra tiene tendencia a disminuir.
Ejemplo:
Una persona se entrena para obtener el carnet de conducir repitiendo un test de 50 preguntas. En la
gráfica se describen el nº de errores que corresponden a los intentos realizados.
Observa que hay una correlación muy fuerte (los puntos están "casi" alineados) y negativa (la recta es
decreciente).
Ejemplo:
A 12 alumnos de un centro se les preguntó a qué distancia estaba su residencia del Instituto, con fin de
estudiar se esta variable estaba relacionada con la nota media obtenida. Se obtuvieron los datos que
figuran en la siguiente tabla:
Distancia (en km) 0,05 0,1 0,12 0,4 0,5 0,7 1
Nota media
8,4
4
5,7
1,2 2,1 2,5 3
3
9,1 6,3 6,7 4,3 5,4 7,8 4,5 7,2 8,1
Observamos una nube de puntos que no nos sugiere ninguna recta concreta, porque la correlación es
prácticamente inexistente, es decir, no tiene nada que ver con el rendimiento académico la distancia del
domicilio al instituto,
ESTIMACIÓN MEDIANTE LA RECTA DE REGRESIÓN
Es evidente que no todos dibujaríamos exactamente la misma recta para una nube de puntos, aunque la
correlación fuera bastante fuerte.
De todas las rectas posibles los matemáticos han elegido como la mejor aproximación la llamada de los
mínimos cuadráticos, Su cálculo es también algo mecánico que podemos hacer con calculadora o un
ordenador. En el siguiente apartado encontrarás un ejercicio para estudiar sus propiedades.
La recta de regresión sirve para hacer estimaciones, teniendo en cuenta que:
• Los valores obtenidos son aproximaciones en términos de probabilidad: es probable que el valor
correspondiente a x0 sea y0.
• La fiabilidad es mayor cuanto más fuerte sea la correlación.
• La fiabilidad aumenta al aumentar el número de datos.
• La estimación es más fiable para los valores de x próximos a la media.
Ejemplo:
Con los datos del primer ejemplo, (las notas de 10 alumnos en Matemáticas y en Lengua), podemos
contestar con aproximación a la siguiente cuestión: si un alumno no realizó el examen de lengua, pero sí
el de matemáticas, obteniendo un 7, ¿qué nota cabe esperar que obtuviera en lengua?
MATEMÁTICAS
2
4
5
5
6
6
7
7
8
9
LENGUA
2
2
5
6
5
7
5
8
7
10
Observa el punto amarillo, cuya abscisa corresponde a la nota de matemáticas y su ordenada a la nota
que esperamos que tenga en lengua. Es resultado es aproximado y relativamente fiable, ya que la
correlación es fuerte Y el valor de la nota no está muy próximo a la media, aunque el nº de datos que
tenemos no es muy alto.
Regresión lineal
Si representamos en un gráfico los pares de valores de una distribución bidimensional: la variable "x"
en el eje horizontal o eje de abcisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos que la
nube de puntos sigue una tendencia lineal:
El coeficiente de correlación lineal nos permite determinar si, efectivamente, existe relación entre las
dos variables. Una vez que se concluye que sí existe relación, la regresión nos permite definir la recta
que mejor se ajusta a esta nube de puntos.
Una recta viene definida por la siguiente fórmula: y = a + b · x
Regresión Múltiple
La regresión múltiple es la extensión de la regresión simple, para tomar en cuenta mas de una variable
independiente X. Evidentemente, se trata de la técnica adecuada cuando se desea investigar el efecto
simultaneo sobre Y de varias variables X. A pesar de ello, inclusive si esta interesado en el efecto de una
sola variable, por lo general, se desea incluir otras variables en un análisis de regresión múltiple, por dos
razones:
a. En estudios de observación, es esencial eliminar el sesgo de algunas de las variables de
confusión al incluirlas como regresores.
b. Tanto en estudios de observación como en experimentos aleatorizados, la inclusión de variables
adicionales como regresores puede reducir la varianza residual s2 y, por tanto, mejorar los
intervalos de confianza y los ensayos, como si se incluyesen pruebas ANOVA reforzadas con un
segundo factor.
Descargar