T 05_2 - Monovardigital

Anuncio
Estadística para Relaciones Laborales.
TEMA V 2ª Parte.
TEMA 5 (II Parte)
AJUSTE. REGRESIÓN Y CORRELACIÓN
5.5. CONCEPTO.
Durante todo este tema se ha puesto de manifiesto el interés de estudiar
simultáneamente dos o más variables sobre una misma población con el propósito de poder
estudiar las relaciones existentes entre dichas variables.
A modo de ejemplo, podemos pensar que existe relación entre el salario de los
trabajadores y su antigüedad en la empresa, entre el número de afiliados en alta a la Seguridad
Social y la producción de una economía, entre la edad del trabajador en paro y el tiempo de
búsqueda de empleo, etc.
El análisis que vamos a llevar a cabo parte de la existencia de relación o dependencia
estadística entre las distintas variables que estamos estudiando. Nuestro interés se centra en
determinar la intensidad de la relación y analizar la forma o estructura de la misma. En este
sentido, distinguimos entre teoría de la correlación y teoría de la regresión, orientadas al primer
y segundo tipo de análisis, respectivamente, ambas teorías están íntimamente ligadas.
5.6. DEPENDENCIA FUNCIONAL.
La forma más frecuente de representar una distribución estadística bidimensional
consiste en construir su diagrama de dispersión, o nube de puntos.
Existen distribuciones estadísticas para las que la nube de puntos se dispone de tal
forma que existe una función matemática cuyos puntos son una parte de su representación
gráfica. En este caso se dice que existe una dependencia funcional entre las variables, es decir,
existe una función matemática y  f x  tal que, si xi , yi  es un punto de la nube, se tiene que
f xi   yi . Otras distribuciones, sin coincidir exactamente sus puntos con los de la función
matemática, se aproximan a ella con mayor o menor intensidad.
Por último, son muchas las distribuciones estadísticas bidimensionales cuya nube de
puntos presenta un aspecto tal que no existe concentración de puntos hacia ninguna gráfica
matemática, distribuyéndose de un modo aproximadamente uniforme por una región del plano,
se dice en este caso, que las variables X e Y son independientes
Las dos situaciones descritas se ponen de manifiesto de una manera intuitiva con las
dos siguientes figuras:
Profesor: Aristóteles de la E. Gosálbez.
44
Estadística para Relaciones Laborales.
TEMA V 2ª Parte.
5.7. ANÁLISIS DE REGRESIÓN O AJUSTE.
Ajustar una línea a una nube de puntos consiste en encontrar una función cuya gráfica
se adapte de forma adecuada a la nube. Esta forma adecuada dependerá de la distribución de
que se trate y del grado de aproximación que se desee conseguir. De todas las líneas que se
ajusten a la nube de puntos, la que se aproxime con más exactitud la llamaremos curva de
regresión.
Existen distintos tipos de ajuste o regresión: el llamado ajuste lineal, que emplea una
recta, y es el utilizado más frecuentemente por su comodidad; el ajuste parabólico, cuya línea
es una parábola. Otros tipos de ajuste, de empleo menos frecuente y utilización específica, son
el exponencial, el logarítmico y el hiperbólico.
En los siguientes ejemplos visualizaremos con facilidad los distintos ajustes explicados
anteriormente.
5.8. REGRESIÓN LINEAL.
Consideremos una variable bidimensional ( X, Y ), y su representación gráfica, de todas
las rectas que se aproximen a la nube de puntos, la que más se ajuste la llamaremos recta de
regresión.
Entonces el problema consiste en encontrar la ecuación de una recta de la forma
y  ax  b que sea la que mejor se ajuste a la nube de puntos. Para ello debemos encontrar los
parámetros a y b , para su cálculo existen varios métodos, siendo el más utilizado el
denominado de mínimos cuadrados, que se basa en el hecho de que la recta que se obtiene hace
mínima la suma de los cuadrados de las diferencias entre los valores observados
experimentalmente y los teóricos que se obtengan mediante la recta a los que se denominan
residuos. Los valores a y b buscados son los que resultan de resolver el sistema llamado de
ecuaciones normales.
n
n
 yi  bN  a xi
i 1
n
i i
x y
i i
Profesor: Aristóteles de la E. Gosálbez.
i
i
n
n
i 1
i 1
 b  xi  a  xi
2
45
Estadística para Relaciones Laborales.
TEMA V 2ª Parte.
De la aplicación del método anterior se obtiene que la recta de regresión pasa por el
punto X , Y  , cuyas coordenadas representan las medias aritméticas de las variables X e Y
respectivamente.
Por tanto, la ecuación buscada será de la forma: y  Y  a  x  X 
donde a recibe el nombre de coeficiente de regresión lineal y se demuestra que es igual a:
a
S xy
Sx
2
luego la ecuación de la recta de regresión es:
S xy
y  Y  2 x  X 
Sx
A esta recta de regresión se le llama recta de regresión de Y sobre X, ya que hemos
considerado la variable X independiente y la variable Y dependiente de X.
El conocimiento de la recta de regresión nos permitirá estimar los valores de una
variable conocidos los valores de la otra. Concretamente, si en la ecuación anterior sustituimos
los valores de la variable X obtendremos una aproximación de los valores esperados para la
variable Y.
Análogamente se puede obtener la recta de regresión de X sobre Y. En este caso la
variable independiente es Y, siendo X la variable dependiente. La ecuación queda:
y  Y 
2
Sy
Es muy importante tener en cuenta que si conocemos la ecuación explicita de la recta de
regresión de Y sobre X ( y  a  x  b ) es totalmente incorrecto, para obtener la ecuación de la
recta de regresión de X sobre Y, despejar x en la ecuación anterior.
x X 
S xy
Ejemplo: Las calificaciones de 40 alumnos en psicología evolutiva (X) y en estadística (Y)
han sido las siguientes:
xi
3
4
5
6
6
7
7
8
10
yj
nij
2
5
5
6
7
6
7
9
10
4
6
12
4
5
4
2
1
2
Calculando los parámetros necesarios, obtenemos los siguientes resultados:
X  5,5
Profesor: Aristóteles de la E. Gosálbez.
Y  5,6
S xy  2,6
S x  2,6
2
46
Estadística para Relaciones Laborales.
TEMA V 2ª Parte.
Sustituyendo en la expresión de la recta de regresión de Y sobre X , resulta:
S xy
2,6
x  5,5
y  Y  2 x  X   y  5,6 
2,6
Sx
operando se obtiene: y  x  0,1 donde a  1 y b  0,1
Supongamos que quisiéramos calcular la nota esperada de un alumno con nota de 4,5 en
psicología, deberíamos sustituir x por 4,5 en la ecuación de la recta de regresión que acabamos
de obtener
y  4,5  0,1  4,6
Por tanto, se prevé que la calificación que obtendrá el alumno en estadística será igual a 4,6.
5.8.1. INTERPRETACIÓN DEL COEFICIENTE DE REGRESIÓN.
S xy
El coeficiente de regresión de Y sobre X, 2 ( a si tenemos la recta en forma explicita
Sx
y  a  x  b ) se interpreta de al siguiente forma: a un aumento de una unidad de la variable x,
S xy
corresponde una variación de
unidades de la variable y (aumento si el coeficiente de
2
Sx
regresión es positivo o disminución si es negativo)
Ejemplo: Sea y  1,36  x  19,19 , donde X = número de médicos que pasan consulta
en un centro de salud e Y = número de pacientes que atienden. El coeficiente de regresión
a  1,36 , indica que si aumentamos un medico en el centro de salud, el número de pacientes
que atiende cada medico, disminuiría en 1,36.
5.9. CORRELACIÓN.
El fin de la curva de regresión es de promediar los datos de la distribución, y todo
promedio debe ir acompañado de un parámetro que mida su grado de representatividad.
El problema de la regresión es ajustar una línea, recta o curva, a una nube de
puntos, mientras que el objeto de la correlación es determinar hasta que punto es bueno dicho
ajuste, además de estudiar la relación o dependencia entre las dos variables estadísticas que
intervienen en una distribución bidimensional.
Antes de formular matemáticamente este concepto, vamos a analizarlo grafica e
intuitivamente; para ello observemos las siguientes nubes de puntos.
Profesor: Aristóteles de la E. Gosálbez.
47
Estadística para Relaciones Laborales.
TEMA V 2ª Parte.
En los dos primeros gráficos vemos que los puntos de la nube se condensan en
torno a una recta, en el primer de una manera mas fuerte que en la segunda.
En el tercer gráfico, observamos que a medida que aumenta la variable X, aumenta
la variable Y, diremos que entre las variables existe una correlación directa o positiva.
En el cuarto, observamos que a medida que aumenta la variable X, disminuye la
variable Y, diremos que entre las variables existe una correlación inversa o negativa.
Evidentemente, este estudio de la correlación es demasiado intuitivo, con los errores
que esto puede llevar consigo. Así pues para mejorar el estudio, vamos a calcular unos
parámetros, a partir de los cuales podremos valorar sin ningún tipo de subjetividad la
correlación que existe entre dos variables.
5.9.1. COEFICIENTE DE CORRELACION LINEAL.
Mediante el coeficiente de correlación lineal lo que se busca es un número para
cuantificar de la forma más objetiva y precisa posible, la intensidad o fuerza de una correlación
lineal (dependencia), en una variable bidimensional.
Sea ( X, Y ) una variable estadística bidimensional. Se define coeficiente de correlación
lineal, y lo denotaremos por r , al siguiente cociente:
R
S xy
SxSy
donde S xy denota la covarianza de ( X, Y ), S x la desviación típica de X, S y la desviación
típica de Y.
Hagamos algunas observaciones sobre dos conceptos (signo y valor) del coeficiente
que acabamos de definir:
Signo: Su signo viene dado por el signo de la covarianza ya que las desviaciones típicas
de las variables son siempre positivas. Así pues, el signo de la covarianza decide el
comportamiento de la correlación.
· Si la covarianza es positiva la correlación es directa, es decir, la nube de puntos estará
sobre una recta creciente.
· Si la covarianza es negativa la correlación es inversa, la nube de puntos estará sobre
una recta decreciente.
· Si la covarianza es nula no existe correlación lineal entre las variables.
Valor: Se demuestra que el coeficiente de correlación lineal es número real
comprendido entre -1 y 1. Teniendo esto en cuenta, y dependiendo de cual sea su valor,
obtendremos la siguiente información acerca del comportamiento de la correlación lineal.
· Si R  1 , la correlación lineal es perfecta, es decir, la nube de puntos está situada,
toda ella, sobre la recta de regresión, directa si r  1 e inversa si r  1 .Esto significa que la
dependencia entre las dos variables es de tipo funcional, es decir, la podemos expresar a través
de una función.
· Si R  0 , no existe dependencia lineal entre las variables, pudiendo darse otra
dependencia no lineal, o bien puede ocurrir que las variables sean independientes.
Profesor: Aristóteles de la E. Gosálbez.
48
Estadística para Relaciones Laborales.
TEMA V 2ª Parte.
· Valores de R próximos a 1 o –1 indican una fuerte dependencia lineal entre las
variables, y disminuyendo cuando el valor de r su valor va aproximándose a cero. Se dice que
dependencia es aleatoria.
Podemos concluir diciendo que la estimaciones realizadas a través de las rectas de
regresión, serán fiables siempre que el valor del coeficiente de correlación lineal, r, tome
valores próximos a 1 ó -1
5.9.2. VARIANZA RESIDUAL.
Como se ha indicado en el apartado anterior, a todo ajuste se le debe asociar una
medida de dispersión que indique su representatividad. El grado de bondad del ajuste se
deducirá de las diferencias o residuos entre los valores observados yi y los valores dados por
la línea de regresión yi

La más adecuada de estas medidas es la varianza residual, cuya expresión viene dada:
 y
n
Se 
2
i 1
i
 yi
 ·n  e
n
 2
ij
N

i 1
2
i
N
donde e i son las desviaciones o residuos: ei  yi  yi

Si la varianza residual es grande la curva de regresión será poco representativa de la
nube de puntos. Si la varianza es pequeña la representatividad será grande.
La varianza residual no debe confundirse con la varianza de una variable. En la
varianza residual también llamada error medio, las diferencias o desviaciones se toman con
respecto a la línea de regresión y en la varianza de una variable tales desviaciones se toman
con respecto a la media aritmética.
Para calcular la varianza residual no es práctico utilizar la fórmula antes descrita,
usaremos otra, que se deduce de la anterior una vez fijada la función de regresión que se halla
ajustado. Solo veremos las fórmulas cuando el ajuste o regresión sea lineal, conocida
y  axb:
Para distribuciones de tipo I:
n
Se 
2
Profesor: Aristóteles de la E. Gosálbez.
n
n
 y i  b y i  a  xi y i
i 1
2
i 1
i 1
N
49
Estadística para Relaciones Laborales.
TEMA V 2ª Parte.
Para distribuciones de tipo II:
n
Se 
2
n
n
 y i ni  b  y i ni  a  x i y i ni
2
i 1
i 1
i 1
N
Si los ajustes fueran de cualquier otro tipo, se llegaría a otras fórmulas,
momento, su desarrollo excede de los objetivos de este curso.
por el
Ejemplo: Vamos a calcular la varianza residual entre la variable X = número de
cigarrillos consumidos diariamente e Y = nivel de triglicéridos medido en mg/dl de seis
personas.
xi
yi
xi2
yi2
xi  yi
10
60
100
3600
600
12
75
144
5625
900
16
100
256
10000
600
18
105
324
11025
1820
20
120
400
14400
2400
30
155
900
24025
4650
  106
  615
  2124
 68675
 12040
Los parámetros calculados son:
x  17,67 S x2  41,86 S x  6,47
y  102,5 S y2  939,58 S y  30,65
S xy  195,83
La recta de regresión de Y sobre X:
y  4,68x  19,84  a  4,68 y b  19,84
Por lo tanto la varianza residual quedaría:
n
Se 
2
n
n
i 1
i 1
 y i  b y i  a  xi y i
i 1
2
N

68765 19,64  615  4,68  12040
 21,03
6
Podríamos considerar que el valor de varianza residual no es grande (comparada con la
varianza de Y  S y2 ), por lo tanto los residuos (diferencias entre los valores observados y los
valores de predicción) son pequeños, con lo cual la recta de regresión es adecuada para
realizar predicciones.
Profesor: Aristóteles de la E. Gosálbez.
50
Estadística para Relaciones Laborales.
TEMA V 2ª Parte.
5.9.3.COEFICIENTE DE DETERMINACIÓN.
Otra medida, aun mejor que la varianza residual, de la bondad del ajuste de una recta de
regresión es el denominado coeficiente de determinación.
La fórmula:
SY  SY   S e
2
2
2
nos indica que la variación total de la variable Y es suma de las variaciones debidas a la
variable Y * , que explica el fenómeno, y de las variaciones de los residuos.
2
Si la anterior relación la divido toda por S y obtendríamos:
1
2
R =
S y
2
Sy
2
SY 
2
Sy
2

Se
2
Sy
2
 1
donde:
Se
2
Sy
2
llamado coeficiente de determinación
o bien , de otro modo más cómodo:
R 
2
S 2 xy
2
Sx Sy
2
2
2
donde S 2 xy es la covarianza al cuadrado y S x y S y las varianzas marginales de las variables
X e Y.
El coeficiente R 2 varía entre 0 y 1 y nos medirá la fiabilidad de las estimaciones de la
variable Y a partir de la variable X. Si se multiplica por cien nos da el porcentaje de las
variaciones que son justificadas debido a la correlación entre las dos variables (las variaciones
de Y estarían justificadas por las variaciones de X, dependiendo de los valores de R 2 )
Vale 1 en el caso extremo de que todos los errores sean nulos, la variación en la Y se
explica totalmente, al 100%, por la variación de la X. Vale 0 cuando el ajuste es inadecuado o,
quizás, las variables X e Y son independientes. Valores próximos a 0,9 son indicativos de
ajustes muy aceptables, mientras valores del mismo inferiores a 0,6 tienen escasa fiabilidad y
sugieren la búsqueda de otra curva de regresión más adecuada.
Por ejemplo, si el coeficiente de determinación entre la edad y la altura de niños es
igual a 0,9025, esto significa que el 90,25 % de la altura de dichos niños se explica por la edad;
el resto, hasta el 100% será debido a otras causas: altura de sus padres, dieta, ......
Se puede demostrar que el coeficiente de determinación es el cuadrado del coeficiente
de correlación lineal, es evidente observando la formula de calculo de cada uno de ellos.
Conviene resaltar que el coeficiente de correlación lineal da una medida de la
intensidad de la relación lineal entre dos variables, pero esta medida no es cuantitativa sino
cualitativa, es decir, si para un caso se obtiene un coeficiente r = 0,4 y para otro r = 0,8 no
puede concluirse que en el segundo la relación lineal entre las dos variables es doble que en el
primero, sólo puede decirse que es mayor. Es el coeficiente de determinación el que sí, se
manifiesta en términos cuantitativos y nos da la proporción de la variación entre las dos
variables.
Profesor: Aristóteles de la E. Gosálbez.
51
Estadística para Relaciones Laborales.
TEMA V 2ª Parte.
Ejemplo: La distancia de frenado de un vehículo depende fundamentalmente de la
velocidad a la que se desplaza (expresadas en la tabla en km/h y metros, respectivamente).
Se pregunta:
a) ¿Existe relación lineal entre las dos variables?
b) ¿Qué distancia recorrerá hasta parar un vehículo que se desplaza a 75 km/h?
Velocidad
50
60
70
80
90
100
120
150
Distancia de frenado
8
11
13
19
23
26
28
32
Estimaremos previamente los parámetros de las variables y a partir de estos
responderemos a los dos apartados.
Los valores calculados son los siguientes:
X  90  Y  20
S x2  950  S x  30,82
S y2  66  S y  8,12
S xy  240
a) La intensidad de la relación lineal entre las dos variables la vamos a estimar a partir del
coeficiente de determinación.
R2 
S 2 xy
2
Sx Sy
2
=
2402
 0,92
950 66
Es decir, un 92% de la variabilidad de la distancia de frenado se explica a través de la
relación lineal de la misma con la velocidad que lleve el vehículo, el 8% de la variación
restante se debe a causas desconocidas por nosotros. Podemos afirmar que la relación lineal
entre las variables es lo suficiente intensa como para utilizar la recta de regresión.
b) Sustituyendo los parámetros correspondientes, obtendremos la recta de regresión de Y sobre X
y Y 
nos queda
S xy
Sx
2
240
( x  90 )
x  X   y  20  950
y  0,25x  2,74 , y sustituyendo el valor requerido de x = 75
y(75)  0,25·75  2,74  16,21 metros, recorrerá hasta parar.
Profesor: Aristóteles de la E. Gosálbez.
52
Estadística para Relaciones Laborales.
TEMA V 2ª Parte.
5.9.4. FIABILIDAD DE LA RECTA DE REGRESIÓN.
Resumiendo, la fiabilidad de las estimaciones hechas a partir de la recta de regresión
dependen fundamentalmente de :
· El valor del coeficiente de correlación. Una correlación alta (r próximo  1 ) asegura
estimaciones fiables. También podemos utilizar el coeficiente de determinación
· El número de datos considerados. La fiabilidad aumenta al aumentar los datos. Una
recta obtenida a partir de pocos datos genera grandes riesgos, aunque r sea muy alto.
· La proximidad del valor de X, para el que quiere hacerse la estimación, a la media. La
estimación es más fiable cuando el valor de X está próximo al valor de la media; a medida que
se aleja de la media, la estimación se hace más arriesgada.
Profesor: Aristóteles de la E. Gosálbez.
53
Descargar