ÍNDICE Índice 1 Introducción 2 Regresión Lineal Simple 3 Método

Anuncio
B
REGRESIÓN Y CORRELACIÓN LINEAL
ÍNDICE
Índice
1
Introducción
2
Regresión Lineal Simple
3
Método de los mínimos cuadrados
4
Correlación Lineal Simple
Aplicación Práctica
Regresión Lineal Múltiple
Estimación de coeficientes
Correlación Lineal Múltiple
Aplicación Práctica
Conclusiones
Bibliografía
1
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
INTRODUCCIÓN
En la industria con mucha frecuencia es necesario resolver problemas que
implican conjuntos de variables, cuando se sabe que existe alguna relación inherente
entre ellas. A partir de lo anterior, es necesario establecer modelos que expliquen dicha
relación.
Cuando, simultáneamente, contemplamos dos variables continuas, aunque por
extensión se pueden emplear para variables discretas cuantitativas, surgen preguntas y
problemas específicos. Esencialmente, se emplearán estadísticos descriptivos y
técnicas de estimación para contestar esas preguntas, y técnicas de contraste de
hipótesis específicos para resolver dichos problemas. La mayoría de estos métodos
están encuadrados en las técnicas regresión y correlación
En forma más especifica el análisis de correlación y regresión comprende el
análisis de los datos muestrales para saber que es y como se relacionan entre si dos o
mas variables en una población. El análisis de correlación produce un número que
resume el grado de la fuerza de relación entre dos variables; y el análisis de regresión
da lugar a una ecuación matemática que describe dicha relación.
La técnica de regresión lineal simple está indicada cuando se pretende explicar
una variable respuesta cuantitativa en función de una variable explicativa cuantitativa
también llamada variable independiente, variable regresora o variable predictora. Por
ejemplo, se podría intentar explicar el peso en función de la altura. El modelo intentaría
aproximar la variable respuesta mediante una función lineal de la variable explicativa.
A partir de la presente investigación, se pretende mostrar la aplicación práctica
de la regresión y correlación lineal simple y múltiple en la industria. Ya que la aplicación
de las técnicas estadísticas contribuyen a la optimización de los procesos.
2
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
REGRESIÓN LINEAL SIMPLE
La finalidad de una ecuación de regresión es estimar los valores de una variable
con base en los valores conocidos de la otra. Otra forma de emplear una ecuación de
regresión es para explicar los valores de una variable en términos de otra. El análisis de
regresión únicamente indica qué relación matemática podría haber, de existir una.
Las suposiciones que se realizan al aplicar las técnicas de regresión lineal son:
• El modelo propuesto es lineal (es decir existe relación entre la variable explicativa y
la variable explicada, y esta relación es lineal). Es decir se asume que:
Var respuesta = βo + variable explicativa . β 1 + ε
siendo β 0 el término independiente (constante) β 1 el coeficiente de regresión de la
variable explicativa (pendiente) y ε es una variable aleatoria que se llama error residual.
• La variable explicativa se ha medido sin error.
• El valor esperado de e del modelo es cero.
• La varianza de e (y por lo tanto de la variable respuesta) es constante.
• Los ε son independientes entre sí.
• Si se desean realizar contrastes de hipótesis sobre los parámetros (coeficientes) o
sobre el modelo, también es necesario que la distribución de ε sea normal.
Para estudiar la validez del modelo es necesario confirmar estas hipótesis mediante el
estudio de los residuos (valores observados - valores predichos): normalidad,
tendencias, etc. Cuando no se cumplen los criterios de aplicación es necesario realizar
transformaciones a las variables, o bien para obtener una relación lineal o bien para
homogeneizar la varianza.
La regresión lineal simple comprende el intento de desarrollar una línea recta o
ecuación matemática lineal que describa la relación entre dos variables. La regresión
puede ser utilizada de diversas formas. Se emplean en situaciones en la que las dos
variables miden aproximadamente lo mismo, pero en las que una variable es
relativamente costosa, o por el contrario, es poco interesante trabajar con ella, mientras
que con la otra variable no ocurre lo mismo.
Ecuación Lineal Simple
Dos características importantes de una ecuación lineal:
• La independencia de la recta
• La localización de la recta en algún punto. Una ecuación lineal tiene la forma:
3
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
Forma general de la ecuación de regresión lineal simple
Y´= a + Bx
Donde:
Y´ se lee Y prima, es el valor pronosticado de la variable Y para un valor seleccionado
de X.
a es la ordenada de la intersección con el eje Y, es decir, el valor estimado de Y
cuando X = 0. Dicho de otra forma, corresponde al valor estimado de Y, donde la recta
de regresión cruza el eje Y, cuando X = 0.
B es la pendiente de la recta, o el cambio promedio en Y´ por unidad de cambio
(incremento o decremento) en la variable independiente X.
x es cualquier valor seleccionado de la variable independiente.
Con esta expresión se hace referencia al proceso matemático que sirve para
ajustar una línea recta a través de un conjunto de datos bivariables asentados en una
gráfica de dispersión. Dicha línea se conoce como línea de regresión simple.
El primer paso es recoger datos experimentales correspondientes a n individuos
con información de dos variables cuantitativas: una de ellas se considera variable
explicativa (Variable x) y la otra se considera variable respuesta (Variable y). El modelo
que se asume es:
y = βo + x β 1 + ε
Los coeficientes βo y β 1 se estiman por b0 y por b1 a través del método de
mínimos cuadrados.
Método de mínimos cuadrados
Es el procedimiento mas utilizado por adaptar una recta aun conjunto de punto
se le que conoce como método de mínimos cuadrados. La recta resultante presenta 2
característica importantes:
• Es nula la suma de desviaciones verticales en los puntos a partir de la recta
• Es mínima la suma de los cuadrados de dichas desviaciones
Para un valor dado de X, por ejemplo, X1, habrá una diferencia entre el valor Y1
y el correspondiente valor de la curva C. Esta diferencia se denota por D1, que se
conoce como desviación, error o residuo.
4
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
De todas las curvas de aproximación a una serie de datos puntuales la curva que
tiene la propiedad de que: D21 + D22 + . . . + D2N Se conoce como Mejor curva de
ajuste
(XN,YN)
DN
C
(X1,Y1)
D1
(X2,Y2)
D2
X1
X2
XN
La suma de cuadrados de desviación se le llama suma de cuadrados por falla
(SCF). Esta suma de cuadrados proporciona la medida de que tan bien se ajusta la
línea al conjunto completo de puntos.
Si la SCF es cero, implica que los puntos caen exactamente sobre la línea. Por el
contrario entre más grande es SCF respecto de cero, menor es el ajuste. La recta que
tenga una suma de cuadrados menor para un conjunto de puntos, que cualquier otra
línea recta es la línea recta llamada línea de regresión de los mínimos cuadrados.
Las ecuaciones normales son un conjunto de ecuaciones cuya solución produce
un valor único para la pendiente B y la ordenada a asociada con los datos bivariables.
Obteniéndose así:
El problema que se plantea es entonces el de cómo calcular las cantidades a y b
a partir de un conjunto de n observaciones:
(X1, Y1)
(X2, Y2)
...
(XN, YN)
De forma que se minimice el error. Las etapas en que se divide el proceso que
se va a desarrollar son de forma esquemática, las que siguen:
1. Dadas dos variables X, Y, sobre las que se define:
5
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
Se mide el error que se comete al aproximar Y mediante calculando la suma de las
diferencias entre los valores reales y los aproximados al cuadrado (para que sean
positivas y no se compensen los errores):
2. Una aproximación
de Y, se define a partir de dos cantidades a y b. Se va
a calcular aquellas que minimizan la función
3. Posteriormente se encontraran las fórmulas para el cálculo directo de a y b que
sirvan para cualquier problema.
Ordenada al origen
∑
a=
yi − m∑i =1 xi
i =1
n
n
n
n∑i =1 xiyi − (∑i =1 xi )(∑i =1 yi )
n
Pendiente de la recta
B=
n
n
n∑i =1 xi − (∑i =1 xi )
n
n
6
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
DIAGRAMA DE DISPERSIÓN
La correlación, método por el cual se relacionan dos variables se pude graficar
con un diagrama de dispersión de puntos, a la cual muchos autores le llaman nubes de
puntos, encuadrado dentro de un gráfico de coordenadas X Y en la cual se pude trazar
una recta y cuyos puntos mas cercanos de una recta hablaran de una correlación mas
fuerte, a esta recta se le denomina recta de regresión, que puede ser positiva o
negativa, la primera contundencia a aumentar y la segunda en descenso o decreciente.
También se puede describir un diagrama de dispersión en coordenadas
cartesianas valores, en donde la nube de puntos representa los pares de valores.
Gráficos de recta de regresión
Regresión Negativa
Regresión Positiva
Gráfico de dispersión
7
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
CORRELACION
La correlación, o el grado de relación entre las variables, se estudia para
determinar en que medida una ecuación lineal o de otro tipo describe o explica de una
forma adecuada la relación entre variables.
El análisis de correlación intenta medir la fuerza de las relaciones entre dos
variables por medio de un solo número llamado coeficiente de correlación.
Si todos lo valores de las variables satisfacen exactamente una ecuación, se dice
que las variables están correlacionadas perfectamente o que hay una correlación
perfecta entre ellas.
Cuando se trata de dos variables solamente, se habla de correlación simple y de
regresión simple. Cuando se trata de más de dos variables se habla de correlación
múltiple y de regresión múltiple.
CORRELACION LINEAL SIMPLE
Si “X” y “Y” denotan las dos variables que se consideran, un diagrama de
dispersión muestra la localización de los puntos (X, Y) en un sistema de coordenadas
rectangulares. Si todos los puntos en este diagrama de dispersión parecen encontrarse
cerca de una recta, como en (a) y (b) de la figura 1, la correlación se dice lineal. En
tales casos es adecuada una ecuación lineal.
Si “Y” tiende a incrementarse cuando se incrementa “X”, como en (a), la
correlación se dice positiva o correlación directa. Si “Y” tiende a disminuir cuando se
incrementa “X”, como en (b) la correlación se dice negativa o correlación inversa.
Si todos los puntos parecen estar cerca de alguna curva, la correlación se dice
no lineal y una ecuación no lineal es la apropiada para la regresión o estimación. Es
evidente que una correlación no lineal puede ser a veces positiva y a veces negativa.
Si no hay ninguna relación entre las variables, como la figura 1(c), se dice que no
hay correlación entre ellas, es decir, no están correlacionadas.
8
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
Y
Y
Y
X
(a) Correlación lineal positiva
X
(b) Correlación lineal negativa
X
(c) No hay correlación
Figura 1
Medidas de correlación
Una forma de determinar de una manera cualitativa, lo bien que una recta o
curva dada describe la relación entre variables es la observación directa del diagrama
de dispersión. Por ejemplo se ve que para los datos de la fig.-1(a) la recta representada
describe mucho mejor la relación entre “X” y “Y” que la de la fig.-1(b) lo hace para los
suyos, debido al hecho de que hay menos dispersión alrededor de la recta de la fig.1(a).
Si se trata el problema de la dispersión de los datos muestrales alrededor de
rectas o curvas de una manera cuantitativa, será necesario definir unas medidas de
correlación.
Error típico de la estimación
Si Yest.. representa el valor de Y estimado de la ecuación de regresión lineal
simple para valores de X dados, una medida de la dispersión alrededor de la recta de
regresión de Y sobre X viene dada por la cantidad:
s Y.X =
2
Σ(Y - Y est. )
N
que se llama error típico de la estimación de Y sobre X.
Variación explicada y no explicada
Y - Y )2
La variación total de Y se define como: Σ(
es decir, la suma de los cuadrados de las desviaciones de los valores de Y de su media Y
lo cual puede escribirse como:
9
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
2
2
2
Σ(Y - Y ) = Σ(Y - Y est. ) + Σ(Y est. - Y )
Siendo Yest. el valor de Y estimado de la ecuación de regresión de la recta de
mínimos cuadrados para valores de X dados: Y´= a + Bx
El primer término del segundo miembro se llama variación no explicada, mientras
que el segundo término se llama variación explicada, y esto es así, porque las
desviaciones de “Y estimada” menos “Y media” tienen un patrón definido, mientras que
las desviaciones “Y” menos “Y estimada” se comportan de una forma aleatoria o no
previsible.
Coeficiente de correlación
La razón de la variación explicada a la variación total se llama coeficiente de
determinación. Si la variación explicada es cero, es decir, la variación total es toda no
explicada, esta razón es cero. Si la variación no explicada es cero, es decir, la variación
total es toda explicada, la razón es uno. En los demás casos la razón se encuentra
entre cero y uno. Puesto que la razón es siempre no negativa, se denota por r2. La
cantidad r se llama coeficiente de correlación y esta dado por:
variación explicada
r =±
2
Σ(Yest. - Y)
=±
variación total
2
Σ(Y - Y)
y varía entre -1 y +1, los signos ± se utilizan para la correlación lineal positiva y la
correlación lineal negativa, respectivamente. Nótese que r es una cantidad sin
dimensiones, es decir, no depende de las unidades empleadas. De esta manera un
valor de r igual a +1 implica una relación lineal perfecta con una pendiente positiva,
mientras que un valor de r igual a -1 resulta de una relación lineal perfecta con
pendiente negativa. Se puede decir entonces que las estimaciones muestrales de r
cercanas a la unidad en magnitud implican una buena correlación o una asociación
lineal entre X y Y, mientras que valores cercanos a cero indican poca o ninguna
correlación.
Otra forma de medir el coeficiente de correlación muestral es:
r =
1-
S2Y .X
S 2Y
Ecuaciones similares se obtienen cuando se intercambian X y Y.
10
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
Para el caso de una correlación lineal la cantidad r es la misma, tanto si es X
como Y considerada como variables independientes. Así, pues, r es una medida muy
buena de la correlación lineal entre dos variables.
Las dos definiciones anteriores de r “coeficiente de correlación” son
completamente generales y pueden utilizarse para relaciones no lineales, tanto como
para lineales, las únicas diferencias, son que Yest. Se calcula en aquel caso, a partir de
una ecuación de regresión no lineal en lugar de una ecuación de regresión lineal y los
signos ± se omiten.
El coeficiente de determinación muestral r2 expresa la proporción de la variación
total en los valores de la variable Y que dan razón o se pueden explicar mediante una
relación lineal con los valores de la variable aleatoria X. De esta manera una correlación
de 0.6 significa que 0.36, o 36%, de la variación total de los valores de Y en nuestra
muestra se explican mediante una relación lineal con los valores de X.
Se debe señalar que en estudios de correlación, como en problemas de
regresión lineal, los resultados que se obtienen sólo tan buenos como el modelo que se
supone. En la técnica de correlación de nuestro caso se supone una densidad normal
bivariada para las variables X y Y, con el valor medio de Y en cada valor x linealmente
relacionado con x. Para observar la conveniencia de la suposición de linealidad, a
menudo es útil una graficación preliminar de los datos experimentales. Un valor del
coeficiente de correlación muestral cercano a cero resultará de datos que muestren un
efecto estrictamente aleatorio, lo que implica poca o ninguna relación causal. Es
importante recordar que el coeficiente de correlación entre dos variables es una medida
de su relación lineal, y que un valor de r igual con cero implica una falta de linealidad y
no una falta de asociación. Por ello, si existe una fuerte relación cuadrática entre X y Y,
podemos aún obtener una correlación cero que indique una relación no lineal.
11
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
APLICACIÓN PRÁCTICA
En la industria de las Artes Gráficas es importante el tiempo de secado una vez
que el impreso sale de la prensa Offset, ya que de la rapidez de lo anterior dependerá
la agilización del proceso posterior y la eliminación de cuellos de botella innecesarios.
Durante el mes de Julio de 2005; en la empresa Surtidora Gráfica S.A. de C.V.,
se desarrollo un muestreo a partir de un impreso estándar en PMS con un área de
impresión gráfica aproximada del 75%, ya que generalmente este impreso responde al
formato común a producir. El objetivo de dicho estudio, fue determinar la relación
existente entre gramaje y tiempo de secado.
Conocimiento Teórico.El mecanismo de secado de la tinta se refiere a la forma en que la tinta impresa
húmeda se transforma en película permanente sobre la superficie de impresión.
Especificaciones del proceso Offset:
Máquina.- Speed Master CD (5 colores)
Proveedor Papel.- Pochteca (Couche Brillante)
Proveedor Tinta.- Sun Chemical
Ganancia de Punto.- 72%
Solución de la fuente:
PH.- 3.0-4.5Conductividad.- 800-1200 microhms
Temperatura.- 120oC
Medida
57X87
57X87
57X87
57X87
58X88
58X88
58X88
58X89
Gramaje
90
100
115
135
150
200
250
300
Tiempo de
Secado
(Min)
130
110
150
180
168
240
200
260
Medida
61x90
61X90
61X90
61X90
61X90
61X90
61X90
61X90
Gramaje
90
100
115
135
150
200
250
300
Tiempo de
Secado
(Min)
140
120
150
145
180
280
250
280
Medida
70X95
70X95
70X95
70X95
70X95
70X95
70X95
70X95
Gramaje
90
100
115
135
150
200
250
300
Tiempo de
Secado
(Min)
180
120
180
210
200
260
289
320
12
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
DIAGRAMA DE DISPERSIÓN
350
y = 0.7447x + 72.842
Tiempo de secado
300
250
200
150
100
50
0
0
50
100
150
200
250
300
Gramaje
A partir del software Statgraphics es posible definir el modelo y la correlación
correspondiente de la relación entre gramaje y tiempo de secado.
Regression Analysis - Linear model: Y = a + b*X
Parameter
Intercept
Slope
Estímate
72.8425
0.744722
Error
P-Value
15.6932
0.0862982
0.0001
0.0000
Dependent variable: Tiempo
Independen variable: Gramaje Correlation Coefficient = 0.878607
R-squared = 77.1951 %Standard
Error of Est. = 29.9319
Análisis de Resultados
A continuación se muestran
describe:
los resultados apropiados del modelo lineal que se
a) La ecuación del modelo establece la relación entre el Tiempo de secado y el
gramaje
Tiempo = 72.8425 + 0.744722*Gramaje
b) La r-cuadrada indica estadísticamente al modelo como apto para explicar con
77.1951% la variabilidad en relación al gramaje.
13
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
c) El coeficiente de correlación igual a 0.878607 indica una relación moderadamente
fuerte entre las variables.
d) El error estándar de la estimación muestra la desviación estándar de 29.9319. Este
valor puede ser usado para construir límites de predicción en nuevas observaciones
para elaborar pronósticos.
e) El p-value muestra que efectivamente no se rechaza la hipótesis del modelo que
explica la relación moderadamente fuerte del tiempo de secado con el gramaje.
Software Statgraphic
Fig. 1 Pantalla Central del Software
Statgraphic.
Fig. 2 Pantalla en la que se
muestran los cálculos obtenidos a
partir del software.
14
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
REGRESIÓN LINEAL MÚLTIPLE
En la mayor parte de los problemas que se generan en la industria en que se
aplica el análisis de regresión, se requiere más de una variable independiente en el
modelo de regresión. La complejidad de la mayoría de los mecanismos científicos es tal
que, con objeto de estar en condiciones de pronosticar una respuesta, se necesita un
modelo de regresión múltiple..
La regresión múltiple comprende tres o más variables. Existe solo una variable
dependiente, pero hay dos o más de tipo independiente. En esta operación se
desarrolla una ecuación la cual se puede utilizar para predecir valore de y, respecto a
valores dados de la diferencia de variables independientes adicionales a través de
incrementar la capacidad predicativa sobre la de la regresión lineal simple.
Aunque hay muchos problemas en los cuales una variable puede predecirse con
bastante exactitud en términos de otra, parece razonable que las predicciones deban
mejorar si adicionalmente se considera información relevante.
Estimación de los coeficientes por el método de mínimos cuadrados
En el caso de la regresión múltiple la ecuación se amplía y puede tener más
variables independientes adicionales. Esto puede ampliarse a cualquier número (k) de
variables independientes, siendo la ecuación general de regresión múltiple:
Forma general de la ecuación de regresión lineal múltiple
Y1= a + B1 x1i + B2 x2i + . . . + Bk xki + ε i
Donde:
X1, Xk son las variables independientes.
a
es la intersección con el eje Y. Es la ordenada del punto de intersección con el
eje Y.
B1
es la variación neta en Y por cada unidad de variación en X1 manteniendo X2
constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta,
o simplemente coeficiente de regresión.
Bk es el cambio neto en Y para cada cambio unitario en Xk manteniendo X1 constante.
También se le conoce como coeficiente de regresión parcial, coeficiente de regresión
neta, o simplemente coeficiente de regresión.
15
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
Se pueden aplicar técnicas de mínimos cuadrados similares para estimar los
coeficientes cuando los modelos lineales involucran potencias y productos de las
variables independientes.
nbo+b1 ∑i =1 X 1i +b2 ∑i =1 X 2i + . . . + bk ∑i =1 Xki =
n
bo
bo
∑
∑
i =1
n
n
i =1
n
n
∑
X 1i +b1 ∑i =1 X 1i +b2 ∑i =1 X 2i + . . . + bk ∑i =1 X 1 XK =
n
n
n
n
i =1
∑
XKi +b1 ∑i =1 XKi X 1i +b2 ∑i =1 Xki X 2i + . . . + bk ∑i =1 X 2 Ki =
n
n
Yi
n
n
i =1
∑
XiYi
n
i =1
XkiYi
La solución de este conjunto de ecuaciones de las estimaciones únicas produce
los coeficientes b0, b1, b2,...bk.
Regresión lineal matricial
Al ajustar un modelo de regresión lineal múltiple, en particular cuando el número
de variables excede de 2, el conocimiento de la teoría matricial puede facilitar las
manipulaciones matemáticas. Supóngase que el experimentador tiene k variables
independientes X1, X2 . . ., XK, y n observaciones y1, y2 . . ., y yn, cada una de las
cuales se puede expresar por la ecuación:
Y1= a + B1 x1i + B2 x2i + . . . + Bk xki + ⌡i
Este modelo representa n ecuaciones que describen cómo se generan los
valores de respuesta. Con la notación matricial, se pueden escribir las ecuaciones.
 y1 
 y 2
 
. 
y= 
. 
. 
 
 yn 
1X 11 X 21... Xk1 
1X 12 X 22... Xk 2 


.

X =

.

.



1X 1nX 2 n... Xkn 
β 0
β 1 
 
 β 2
 
β = . 
. 
 
. 
 βk 
 
Dada la complejidad de las matrices, de acuerdo al número de variables
independientes, es conveniente resolverlas a través de un software.
16
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
CORRELACION MULTIPLE
El grado de relación existente entre tres o más variables se llama correlación
múltiple. Los principios fundamentales implicados en los problemas de correlación
múltiple son análogos a los de la correlación simple tratada con anterioridad.
Como se observó en la parte de regresión lineal múltiple, existe una ecuación de
regresión para estimar una variable dependiente, a partir de variables independientes.
También, como observamos en la parte de regresión lineal múltiple,
análogamente a como existen las rectas de regresión de mínimos cuadrados de
aproximación a una serie de N datos puntuales (X, Y) en un diagrama de dispersión de
dos dimensiones, existen los planos de regresión de mínimos cuadrados que se ajustan
a una serie de N datos puntuales (X1, X2, X3) en un diagrama de dispersión de tres
dimensiones.
La base del cálculo de la correlación múltiple se basa en la teoría de la regresión
múltiple, ya sea por mínimos cuadrados o matricialmente, de acuerdo a nuestra parte
de regresión lineal múltiple.
Planos de regresión y coeficientes de correlación
Vamos a suponer una ecuación de regresión para el caso de tres variables,
como a continuación se indica:
X1 = b1.23 + b12.3 X2 + b 13.2 X3
Esta ecuación se llama ecuación de regresión lineal de X1 sobre X2 y X3; con b1.23,
b12.3, y b13.2 los coeficientes de regresión parcial de acuerdo a la teoría de regresión
múltiple. Como observamos, tenemos una variable dependiente X1 y dos variables
independientes X2 y X3.
Tomando como referencia esta ecuación, si los coeficientes de correlación lineal
entre las variables X1 y X2, X1 y X3, X2 y X3 se calculan como en la parte de correlación
lineal simple y se denotan, respectivamente, por r12, r13, r23 (también llamados
coeficientes de correlación de orden cero), el plano de regresión de mínimos cuadrados
tiene la ecuación:
x1
donde:
s1
=
r12 - r13r23
x2
1 - r223
s2
+
r13 - r12r23
x3
1 - r223
s3
x 1 = X1 - X1, x2 = X2 - X2, x 3 = X3 - X3, y s 1, s2 y s3 son las desviaciones típicas de X1, X2 y X3,
respectivamente
17
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
Error típico de la estimación
Tomando como base la teoría de la regresión lineal simple como una
generalización de esta definimos al error de la siguiente manera:
2
Σ(X 1 - X 1 est. )
N
donde X1 est. Indica los valores de X1 estimados en la recta de regresión.
s 1.23 =
En términos de los coeficientes de correlación r12, r13, y r23, el error típico de la
estimación puede calculares por medio de:
s 1.23 =
1 - r 212 + r 213 - r223 + 2r 12r 13r 23
1 - r 223
Coeficiente de correlación múltiple
Por analogía con la teoría de correlación simple, el coeficiente de correlación
múltiple queda defino por una extensión de la ecuación del coeficiente en correlación
simple. En el caso, por ejemplo, de dos variables independientes, el coeficiente de
correlación múltiple esta dado por:
R 1.23 =
1-
s 21.23
s 21
Donde s1 es la desviación típica de la variable X1 y s1.23 se calcula de acuerdo a la
fórmula vista en la parte de error típico de la estimación. La cantidad R21.23 se llama
coeficiente de determinación múltiple.
Cuando se utiliza una ecuación de regresión lineal, el coeficiente de correlación
múltiple se llama coeficiente de correlación múltiple lineal. A menos que se especifique
de otro modo, siempre que se refiera a correlación múltiple se tratará de correlación
múltiple lineal.
En términos de r12, r13, y r23, la ecuación anterior puede escribirse como:
R 1.23 =
r 212 + r 213 - 2r 12r 13r 23
1 - r 223
18
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
Un coeficiente de correlación múltiple, tal como R1.23, se encuentra entre 0 y 1.
Cuanto más se acerque a 1 mejor es la relación lineal entre las variables. Cuanto más
cerca se encuentra de cero la relación lineal es peor. Si el coeficiente de correlación
múltiples 1, la correlación se dice perfecta. Aunque un coeficiente de correlación con
valor 0 indica que no existe relación lineal entre las variables, es posible que exista
entre ellas una relación no lineal.
19
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
APLICACIÓN PRÁCTICA
En la empresa Surtidora Gráfica S.A. de C.V. Se desea saber si se relacionan las
variables de lineatura de trama de PMS con la ganancia de punto, cómo se relacionan y
el grado en el que las variables se relacionan. Para tal efecto se realizo un estudio del
impreso “Carta Bienvenida Bancomer” impreso en selección de color en papel couche
de 120 grs. La máquina Offset proporciona las medidas de lineatura por pulgada,
mientras que el densitómetro es empleado para determinar la ganancia de punto
correspondiente.
En una corrida de 1000T/L se realizo a cabo el siguiente estudio con un n= 20
impresos
L IN E A S P O R P U L G A D A
L in e a tu r a s
N eg ro X 1
75
90
90
165
100
125
128
100
110
115
120
180
250
140
280
300
350
300
320
310
L in e a tu r a s
M a g e n ta X 2
85
89
85
135
95
165
150
125
130
125
190
160
189
200
250
320
290
320
350
350
L in e a tu r a s
C yan X3
90
128
89
140
120
185
140
200
210
128
200
190
220
250
200
290
280
350
360
320
L in e a tu ra s
Y e llo w X 4
95
150
96
150
100
100
110
160
210
130
169
200
200
280
240
260
290
300
320
310
G a n a n c ia d e
p u n to Y 1
%
7 .5
25
7 .5
30
25
30
25
30
30
25
30
30
40
42
43
45
49
50
50
50
Conocimiento Teórico.La definición de ganancia de punto trata del incremento en los valores tonales del punto
de trama (es decir, la superficie relativa que ocupa en la trama) que experimenta en los
diversos procesos gráficos por los que atraviesa
20
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
A partir del software Statgraphics es posible definir el modelo y la correlación
correspondiente de la relación entre gramaje y tiempo de secado.
Regression Analysis - Linear model: Y = a + b1*X1 + b2*X2+ b3*X3 + b4*X4
Parameter
CONSTANT
Negro
Magenta
Cyan
Yellow
Estímate
3.711982
0.0510435
-0.0224212
0.0870096
0.0343141
Error
P-Value
3.06246
0.0341314
0.0518854
0.0503742
0.0404302
0.2433
0.1555
0.6718
0.1046
0.4094
Correlation Coefficient = 0.94403
R-squared = 89.1202 %
Dependent variable: Ganancia Punto
Independen variable: Lineatura de trama
Error of Est. = 4.74695
Análisis de Resultados
A continuación se muestran
describe:
los resultados apropiados del modelo lineal que se
La ecuación del modelo establece la relación entre la ganancia de punto y las lineaturas
de trama del PMS.
Ganancia Punto =3.71982+0.0510435*Negro – 0.0224212*Magenta + 0.870096*Cyan
+ 0.0343141*Yellow
b) La r-cuadrada indica estadísticamente al modelo como apto para explicar con
89.1202 % la variabilidad en relación al gramaje.
c) El coeficiente de correlación igual a 0.94403 indica una relación fuerte entre las
variables.
d) El error estándar de la estimación muestra la desviación estándar de 4.74695. Este
valor puede ser usado para construir límites de predicción en nuevos experimentos. Se
observa que el margen de error es reducido.
e) El p-value muestra que efectivamente no se rechaza la hipótesis del modelo que
explica la relación fuerte de la lineatura del tramado de selección de color con la
ganancia de punto. A partir de lo anterior, el color magenta tiene un p-value lo cual
significa que este color representa de manera efectiva la correlación existente.
21
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
CONCLUSIONES
El análisis de regresión y correlación lineal constituyen métodos que se emplean
para conocer las relaciones y significación entre series de datos. Lo anterior, es de
suma importancia para la industria ya que es aquí en donde se presentan variables de
respuesta e independientes las cuales interactúan para originar las características de
un proceso en particular y por ende; analizar, predecir valores de la variable
dependiente y examinar el grado de fuerza con que se relacionan dichas variables.
La regresión lineal simple y la regresión múltiple, analiza la relación de dos o mas
variables continuas, cuando analiza dos variables a esta se el conoce como variable
bivariantes que pueden corresponder a variables cualitativas. La finalidad de una
ecuación de regresión es la de estimar los valores de una variable con base en los
valores conocidos de la otra. Del mismo modo, una ecuación de regresión explica los
valores de una variable en términos de otra. Es decir, se puede intuir una relación de
causa y efecto entre dos o más variables. El análisis de regresión únicamente indica
qué relación matemática podría haber, de existir una.
Por otro lado, Al ajustar un modelo de regresión simple o múltiple a una nube de
observaciones es importante disponer de alguna medida que permita medir la bondad
del ajuste. Esto se consigue con los coeficientes de correlación. Si el modelo que se
ajusta es un modelo de regresión lineal, a R se le denomina coeficiente de
correlación y representa el porcentaje de variabilidad de la Y que explica el modelo de
regresión.
Estas técnicas estadísticas constituyen una herramienta útil para el análisis de
las variables de un proceso ya que a través de la aplicación de éstas, es posible
conocer el modelo que siguen y la fuerza con que se encuentran relacionadas.
Asimismo, es posible explicar la relación que guardan dos o más causas de un posible
defecto.
22
Estadística Aplicada
B
REGRESIÓN Y CORRELACIÓN LINEAL
BIBLIOGRAFÍA
1. Ronald E. Walpole y Raymond H Myers. PROBABILIDAD Y ESTADÍSTICA, Sexta
Edición. 1998.
2. William Mendenhall y Dennos D. Wackerly. ESTADÍSTICA MATEMÁTICA CON
APLICACIONES, Segunda Edición. 1994 Editorial Iberoamericana.
3. Gutiérrez-Pulido, H. y De la Vara Salazar, R. (2005), CONTROL ESTADÍSTICO DE
CALIDAD Y SEIS SIGMA, Primera Edición. 2005 Editorial McGraw-Hill, México.
4. Gutiérrez-Pulido, H. y De la Vara Salazar, R. (2003), DISEÑO Y ANÁLISIS DE
EXPERIMENTOS, McGraw-Hill, México.
23
Estadística Aplicada
Descargar