B REGRESIÓN Y CORRELACIÓN LINEAL ÍNDICE Índice 1 Introducción 2 Regresión Lineal Simple 3 Método de los mínimos cuadrados 4 Correlación Lineal Simple Aplicación Práctica Regresión Lineal Múltiple Estimación de coeficientes Correlación Lineal Múltiple Aplicación Práctica Conclusiones Bibliografía 1 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL INTRODUCCIÓN En la industria con mucha frecuencia es necesario resolver problemas que implican conjuntos de variables, cuando se sabe que existe alguna relación inherente entre ellas. A partir de lo anterior, es necesario establecer modelos que expliquen dicha relación. Cuando, simultáneamente, contemplamos dos variables continuas, aunque por extensión se pueden emplear para variables discretas cuantitativas, surgen preguntas y problemas específicos. Esencialmente, se emplearán estadísticos descriptivos y técnicas de estimación para contestar esas preguntas, y técnicas de contraste de hipótesis específicos para resolver dichos problemas. La mayoría de estos métodos están encuadrados en las técnicas regresión y correlación En forma más especifica el análisis de correlación y regresión comprende el análisis de los datos muestrales para saber que es y como se relacionan entre si dos o mas variables en una población. El análisis de correlación produce un número que resume el grado de la fuerza de relación entre dos variables; y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación. La técnica de regresión lineal simple está indicada cuando se pretende explicar una variable respuesta cuantitativa en función de una variable explicativa cuantitativa también llamada variable independiente, variable regresora o variable predictora. Por ejemplo, se podría intentar explicar el peso en función de la altura. El modelo intentaría aproximar la variable respuesta mediante una función lineal de la variable explicativa. A partir de la presente investigación, se pretende mostrar la aplicación práctica de la regresión y correlación lineal simple y múltiple en la industria. Ya que la aplicación de las técnicas estadísticas contribuyen a la optimización de los procesos. 2 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL REGRESIÓN LINEAL SIMPLE La finalidad de una ecuación de regresión es estimar los valores de una variable con base en los valores conocidos de la otra. Otra forma de emplear una ecuación de regresión es para explicar los valores de una variable en términos de otra. El análisis de regresión únicamente indica qué relación matemática podría haber, de existir una. Las suposiciones que se realizan al aplicar las técnicas de regresión lineal son: • El modelo propuesto es lineal (es decir existe relación entre la variable explicativa y la variable explicada, y esta relación es lineal). Es decir se asume que: Var respuesta = βo + variable explicativa . β 1 + ε siendo β 0 el término independiente (constante) β 1 el coeficiente de regresión de la variable explicativa (pendiente) y ε es una variable aleatoria que se llama error residual. • La variable explicativa se ha medido sin error. • El valor esperado de e del modelo es cero. • La varianza de e (y por lo tanto de la variable respuesta) es constante. • Los ε son independientes entre sí. • Si se desean realizar contrastes de hipótesis sobre los parámetros (coeficientes) o sobre el modelo, también es necesario que la distribución de ε sea normal. Para estudiar la validez del modelo es necesario confirmar estas hipótesis mediante el estudio de los residuos (valores observados - valores predichos): normalidad, tendencias, etc. Cuando no se cumplen los criterios de aplicación es necesario realizar transformaciones a las variables, o bien para obtener una relación lineal o bien para homogeneizar la varianza. La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación matemática lineal que describa la relación entre dos variables. La regresión puede ser utilizada de diversas formas. Se emplean en situaciones en la que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre lo mismo. Ecuación Lineal Simple Dos características importantes de una ecuación lineal: • La independencia de la recta • La localización de la recta en algún punto. Una ecuación lineal tiene la forma: 3 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL Forma general de la ecuación de regresión lineal simple Y´= a + Bx Donde: Y´ se lee Y prima, es el valor pronosticado de la variable Y para un valor seleccionado de X. a es la ordenada de la intersección con el eje Y, es decir, el valor estimado de Y cuando X = 0. Dicho de otra forma, corresponde al valor estimado de Y, donde la recta de regresión cruza el eje Y, cuando X = 0. B es la pendiente de la recta, o el cambio promedio en Y´ por unidad de cambio (incremento o decremento) en la variable independiente X. x es cualquier valor seleccionado de la variable independiente. Con esta expresión se hace referencia al proceso matemático que sirve para ajustar una línea recta a través de un conjunto de datos bivariables asentados en una gráfica de dispersión. Dicha línea se conoce como línea de regresión simple. El primer paso es recoger datos experimentales correspondientes a n individuos con información de dos variables cuantitativas: una de ellas se considera variable explicativa (Variable x) y la otra se considera variable respuesta (Variable y). El modelo que se asume es: y = βo + x β 1 + ε Los coeficientes βo y β 1 se estiman por b0 y por b1 a través del método de mínimos cuadrados. Método de mínimos cuadrados Es el procedimiento mas utilizado por adaptar una recta aun conjunto de punto se le que conoce como método de mínimos cuadrados. La recta resultante presenta 2 característica importantes: • Es nula la suma de desviaciones verticales en los puntos a partir de la recta • Es mínima la suma de los cuadrados de dichas desviaciones Para un valor dado de X, por ejemplo, X1, habrá una diferencia entre el valor Y1 y el correspondiente valor de la curva C. Esta diferencia se denota por D1, que se conoce como desviación, error o residuo. 4 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL De todas las curvas de aproximación a una serie de datos puntuales la curva que tiene la propiedad de que: D21 + D22 + . . . + D2N Se conoce como Mejor curva de ajuste (XN,YN) DN C (X1,Y1) D1 (X2,Y2) D2 X1 X2 XN La suma de cuadrados de desviación se le llama suma de cuadrados por falla (SCF). Esta suma de cuadrados proporciona la medida de que tan bien se ajusta la línea al conjunto completo de puntos. Si la SCF es cero, implica que los puntos caen exactamente sobre la línea. Por el contrario entre más grande es SCF respecto de cero, menor es el ajuste. La recta que tenga una suma de cuadrados menor para un conjunto de puntos, que cualquier otra línea recta es la línea recta llamada línea de regresión de los mínimos cuadrados. Las ecuaciones normales son un conjunto de ecuaciones cuya solución produce un valor único para la pendiente B y la ordenada a asociada con los datos bivariables. Obteniéndose así: El problema que se plantea es entonces el de cómo calcular las cantidades a y b a partir de un conjunto de n observaciones: (X1, Y1) (X2, Y2) ... (XN, YN) De forma que se minimice el error. Las etapas en que se divide el proceso que se va a desarrollar son de forma esquemática, las que siguen: 1. Dadas dos variables X, Y, sobre las que se define: 5 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL Se mide el error que se comete al aproximar Y mediante calculando la suma de las diferencias entre los valores reales y los aproximados al cuadrado (para que sean positivas y no se compensen los errores): 2. Una aproximación de Y, se define a partir de dos cantidades a y b. Se va a calcular aquellas que minimizan la función 3. Posteriormente se encontraran las fórmulas para el cálculo directo de a y b que sirvan para cualquier problema. Ordenada al origen ∑ a= yi − m∑i =1 xi i =1 n n n n∑i =1 xiyi − (∑i =1 xi )(∑i =1 yi ) n Pendiente de la recta B= n n n∑i =1 xi − (∑i =1 xi ) n n 6 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL DIAGRAMA DE DISPERSIÓN La correlación, método por el cual se relacionan dos variables se pude graficar con un diagrama de dispersión de puntos, a la cual muchos autores le llaman nubes de puntos, encuadrado dentro de un gráfico de coordenadas X Y en la cual se pude trazar una recta y cuyos puntos mas cercanos de una recta hablaran de una correlación mas fuerte, a esta recta se le denomina recta de regresión, que puede ser positiva o negativa, la primera contundencia a aumentar y la segunda en descenso o decreciente. También se puede describir un diagrama de dispersión en coordenadas cartesianas valores, en donde la nube de puntos representa los pares de valores. Gráficos de recta de regresión Regresión Negativa Regresión Positiva Gráfico de dispersión 7 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL CORRELACION La correlación, o el grado de relación entre las variables, se estudia para determinar en que medida una ecuación lineal o de otro tipo describe o explica de una forma adecuada la relación entre variables. El análisis de correlación intenta medir la fuerza de las relaciones entre dos variables por medio de un solo número llamado coeficiente de correlación. Si todos lo valores de las variables satisfacen exactamente una ecuación, se dice que las variables están correlacionadas perfectamente o que hay una correlación perfecta entre ellas. Cuando se trata de dos variables solamente, se habla de correlación simple y de regresión simple. Cuando se trata de más de dos variables se habla de correlación múltiple y de regresión múltiple. CORRELACION LINEAL SIMPLE Si “X” y “Y” denotan las dos variables que se consideran, un diagrama de dispersión muestra la localización de los puntos (X, Y) en un sistema de coordenadas rectangulares. Si todos los puntos en este diagrama de dispersión parecen encontrarse cerca de una recta, como en (a) y (b) de la figura 1, la correlación se dice lineal. En tales casos es adecuada una ecuación lineal. Si “Y” tiende a incrementarse cuando se incrementa “X”, como en (a), la correlación se dice positiva o correlación directa. Si “Y” tiende a disminuir cuando se incrementa “X”, como en (b) la correlación se dice negativa o correlación inversa. Si todos los puntos parecen estar cerca de alguna curva, la correlación se dice no lineal y una ecuación no lineal es la apropiada para la regresión o estimación. Es evidente que una correlación no lineal puede ser a veces positiva y a veces negativa. Si no hay ninguna relación entre las variables, como la figura 1(c), se dice que no hay correlación entre ellas, es decir, no están correlacionadas. 8 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL Y Y Y X (a) Correlación lineal positiva X (b) Correlación lineal negativa X (c) No hay correlación Figura 1 Medidas de correlación Una forma de determinar de una manera cualitativa, lo bien que una recta o curva dada describe la relación entre variables es la observación directa del diagrama de dispersión. Por ejemplo se ve que para los datos de la fig.-1(a) la recta representada describe mucho mejor la relación entre “X” y “Y” que la de la fig.-1(b) lo hace para los suyos, debido al hecho de que hay menos dispersión alrededor de la recta de la fig.1(a). Si se trata el problema de la dispersión de los datos muestrales alrededor de rectas o curvas de una manera cuantitativa, será necesario definir unas medidas de correlación. Error típico de la estimación Si Yest.. representa el valor de Y estimado de la ecuación de regresión lineal simple para valores de X dados, una medida de la dispersión alrededor de la recta de regresión de Y sobre X viene dada por la cantidad: s Y.X = 2 Σ(Y - Y est. ) N que se llama error típico de la estimación de Y sobre X. Variación explicada y no explicada Y - Y )2 La variación total de Y se define como: Σ( es decir, la suma de los cuadrados de las desviaciones de los valores de Y de su media Y lo cual puede escribirse como: 9 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL 2 2 2 Σ(Y - Y ) = Σ(Y - Y est. ) + Σ(Y est. - Y ) Siendo Yest. el valor de Y estimado de la ecuación de regresión de la recta de mínimos cuadrados para valores de X dados: Y´= a + Bx El primer término del segundo miembro se llama variación no explicada, mientras que el segundo término se llama variación explicada, y esto es así, porque las desviaciones de “Y estimada” menos “Y media” tienen un patrón definido, mientras que las desviaciones “Y” menos “Y estimada” se comportan de una forma aleatoria o no previsible. Coeficiente de correlación La razón de la variación explicada a la variación total se llama coeficiente de determinación. Si la variación explicada es cero, es decir, la variación total es toda no explicada, esta razón es cero. Si la variación no explicada es cero, es decir, la variación total es toda explicada, la razón es uno. En los demás casos la razón se encuentra entre cero y uno. Puesto que la razón es siempre no negativa, se denota por r2. La cantidad r se llama coeficiente de correlación y esta dado por: variación explicada r =± 2 Σ(Yest. - Y) =± variación total 2 Σ(Y - Y) y varía entre -1 y +1, los signos ± se utilizan para la correlación lineal positiva y la correlación lineal negativa, respectivamente. Nótese que r es una cantidad sin dimensiones, es decir, no depende de las unidades empleadas. De esta manera un valor de r igual a +1 implica una relación lineal perfecta con una pendiente positiva, mientras que un valor de r igual a -1 resulta de una relación lineal perfecta con pendiente negativa. Se puede decir entonces que las estimaciones muestrales de r cercanas a la unidad en magnitud implican una buena correlación o una asociación lineal entre X y Y, mientras que valores cercanos a cero indican poca o ninguna correlación. Otra forma de medir el coeficiente de correlación muestral es: r = 1- S2Y .X S 2Y Ecuaciones similares se obtienen cuando se intercambian X y Y. 10 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL Para el caso de una correlación lineal la cantidad r es la misma, tanto si es X como Y considerada como variables independientes. Así, pues, r es una medida muy buena de la correlación lineal entre dos variables. Las dos definiciones anteriores de r “coeficiente de correlación” son completamente generales y pueden utilizarse para relaciones no lineales, tanto como para lineales, las únicas diferencias, son que Yest. Se calcula en aquel caso, a partir de una ecuación de regresión no lineal en lugar de una ecuación de regresión lineal y los signos ± se omiten. El coeficiente de determinación muestral r2 expresa la proporción de la variación total en los valores de la variable Y que dan razón o se pueden explicar mediante una relación lineal con los valores de la variable aleatoria X. De esta manera una correlación de 0.6 significa que 0.36, o 36%, de la variación total de los valores de Y en nuestra muestra se explican mediante una relación lineal con los valores de X. Se debe señalar que en estudios de correlación, como en problemas de regresión lineal, los resultados que se obtienen sólo tan buenos como el modelo que se supone. En la técnica de correlación de nuestro caso se supone una densidad normal bivariada para las variables X y Y, con el valor medio de Y en cada valor x linealmente relacionado con x. Para observar la conveniencia de la suposición de linealidad, a menudo es útil una graficación preliminar de los datos experimentales. Un valor del coeficiente de correlación muestral cercano a cero resultará de datos que muestren un efecto estrictamente aleatorio, lo que implica poca o ninguna relación causal. Es importante recordar que el coeficiente de correlación entre dos variables es una medida de su relación lineal, y que un valor de r igual con cero implica una falta de linealidad y no una falta de asociación. Por ello, si existe una fuerte relación cuadrática entre X y Y, podemos aún obtener una correlación cero que indique una relación no lineal. 11 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL APLICACIÓN PRÁCTICA En la industria de las Artes Gráficas es importante el tiempo de secado una vez que el impreso sale de la prensa Offset, ya que de la rapidez de lo anterior dependerá la agilización del proceso posterior y la eliminación de cuellos de botella innecesarios. Durante el mes de Julio de 2005; en la empresa Surtidora Gráfica S.A. de C.V., se desarrollo un muestreo a partir de un impreso estándar en PMS con un área de impresión gráfica aproximada del 75%, ya que generalmente este impreso responde al formato común a producir. El objetivo de dicho estudio, fue determinar la relación existente entre gramaje y tiempo de secado. Conocimiento Teórico.El mecanismo de secado de la tinta se refiere a la forma en que la tinta impresa húmeda se transforma en película permanente sobre la superficie de impresión. Especificaciones del proceso Offset: Máquina.- Speed Master CD (5 colores) Proveedor Papel.- Pochteca (Couche Brillante) Proveedor Tinta.- Sun Chemical Ganancia de Punto.- 72% Solución de la fuente: PH.- 3.0-4.5Conductividad.- 800-1200 microhms Temperatura.- 120oC Medida 57X87 57X87 57X87 57X87 58X88 58X88 58X88 58X89 Gramaje 90 100 115 135 150 200 250 300 Tiempo de Secado (Min) 130 110 150 180 168 240 200 260 Medida 61x90 61X90 61X90 61X90 61X90 61X90 61X90 61X90 Gramaje 90 100 115 135 150 200 250 300 Tiempo de Secado (Min) 140 120 150 145 180 280 250 280 Medida 70X95 70X95 70X95 70X95 70X95 70X95 70X95 70X95 Gramaje 90 100 115 135 150 200 250 300 Tiempo de Secado (Min) 180 120 180 210 200 260 289 320 12 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL DIAGRAMA DE DISPERSIÓN 350 y = 0.7447x + 72.842 Tiempo de secado 300 250 200 150 100 50 0 0 50 100 150 200 250 300 Gramaje A partir del software Statgraphics es posible definir el modelo y la correlación correspondiente de la relación entre gramaje y tiempo de secado. Regression Analysis - Linear model: Y = a + b*X Parameter Intercept Slope Estímate 72.8425 0.744722 Error P-Value 15.6932 0.0862982 0.0001 0.0000 Dependent variable: Tiempo Independen variable: Gramaje Correlation Coefficient = 0.878607 R-squared = 77.1951 %Standard Error of Est. = 29.9319 Análisis de Resultados A continuación se muestran describe: los resultados apropiados del modelo lineal que se a) La ecuación del modelo establece la relación entre el Tiempo de secado y el gramaje Tiempo = 72.8425 + 0.744722*Gramaje b) La r-cuadrada indica estadísticamente al modelo como apto para explicar con 77.1951% la variabilidad en relación al gramaje. 13 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL c) El coeficiente de correlación igual a 0.878607 indica una relación moderadamente fuerte entre las variables. d) El error estándar de la estimación muestra la desviación estándar de 29.9319. Este valor puede ser usado para construir límites de predicción en nuevas observaciones para elaborar pronósticos. e) El p-value muestra que efectivamente no se rechaza la hipótesis del modelo que explica la relación moderadamente fuerte del tiempo de secado con el gramaje. Software Statgraphic Fig. 1 Pantalla Central del Software Statgraphic. Fig. 2 Pantalla en la que se muestran los cálculos obtenidos a partir del software. 14 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL REGRESIÓN LINEAL MÚLTIPLE En la mayor parte de los problemas que se generan en la industria en que se aplica el análisis de regresión, se requiere más de una variable independiente en el modelo de regresión. La complejidad de la mayoría de los mecanismos científicos es tal que, con objeto de estar en condiciones de pronosticar una respuesta, se necesita un modelo de regresión múltiple.. La regresión múltiple comprende tres o más variables. Existe solo una variable dependiente, pero hay dos o más de tipo independiente. En esta operación se desarrolla una ecuación la cual se puede utilizar para predecir valore de y, respecto a valores dados de la diferencia de variables independientes adicionales a través de incrementar la capacidad predicativa sobre la de la regresión lineal simple. Aunque hay muchos problemas en los cuales una variable puede predecirse con bastante exactitud en términos de otra, parece razonable que las predicciones deban mejorar si adicionalmente se considera información relevante. Estimación de los coeficientes por el método de mínimos cuadrados En el caso de la regresión múltiple la ecuación se amplía y puede tener más variables independientes adicionales. Esto puede ampliarse a cualquier número (k) de variables independientes, siendo la ecuación general de regresión múltiple: Forma general de la ecuación de regresión lineal múltiple Y1= a + B1 x1i + B2 x2i + . . . + Bk xki + ε i Donde: X1, Xk son las variables independientes. a es la intersección con el eje Y. Es la ordenada del punto de intersección con el eje Y. B1 es la variación neta en Y por cada unidad de variación en X1 manteniendo X2 constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta, o simplemente coeficiente de regresión. Bk es el cambio neto en Y para cada cambio unitario en Xk manteniendo X1 constante. También se le conoce como coeficiente de regresión parcial, coeficiente de regresión neta, o simplemente coeficiente de regresión. 15 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL Se pueden aplicar técnicas de mínimos cuadrados similares para estimar los coeficientes cuando los modelos lineales involucran potencias y productos de las variables independientes. nbo+b1 ∑i =1 X 1i +b2 ∑i =1 X 2i + . . . + bk ∑i =1 Xki = n bo bo ∑ ∑ i =1 n n i =1 n n ∑ X 1i +b1 ∑i =1 X 1i +b2 ∑i =1 X 2i + . . . + bk ∑i =1 X 1 XK = n n n n i =1 ∑ XKi +b1 ∑i =1 XKi X 1i +b2 ∑i =1 Xki X 2i + . . . + bk ∑i =1 X 2 Ki = n n Yi n n i =1 ∑ XiYi n i =1 XkiYi La solución de este conjunto de ecuaciones de las estimaciones únicas produce los coeficientes b0, b1, b2,...bk. Regresión lineal matricial Al ajustar un modelo de regresión lineal múltiple, en particular cuando el número de variables excede de 2, el conocimiento de la teoría matricial puede facilitar las manipulaciones matemáticas. Supóngase que el experimentador tiene k variables independientes X1, X2 . . ., XK, y n observaciones y1, y2 . . ., y yn, cada una de las cuales se puede expresar por la ecuación: Y1= a + B1 x1i + B2 x2i + . . . + Bk xki + ⌡i Este modelo representa n ecuaciones que describen cómo se generan los valores de respuesta. Con la notación matricial, se pueden escribir las ecuaciones. y1 y 2 . y= . . yn 1X 11 X 21... Xk1 1X 12 X 22... Xk 2 . X = . . 1X 1nX 2 n... Xkn β 0 β 1 β 2 β = . . . βk Dada la complejidad de las matrices, de acuerdo al número de variables independientes, es conveniente resolverlas a través de un software. 16 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL CORRELACION MULTIPLE El grado de relación existente entre tres o más variables se llama correlación múltiple. Los principios fundamentales implicados en los problemas de correlación múltiple son análogos a los de la correlación simple tratada con anterioridad. Como se observó en la parte de regresión lineal múltiple, existe una ecuación de regresión para estimar una variable dependiente, a partir de variables independientes. También, como observamos en la parte de regresión lineal múltiple, análogamente a como existen las rectas de regresión de mínimos cuadrados de aproximación a una serie de N datos puntuales (X, Y) en un diagrama de dispersión de dos dimensiones, existen los planos de regresión de mínimos cuadrados que se ajustan a una serie de N datos puntuales (X1, X2, X3) en un diagrama de dispersión de tres dimensiones. La base del cálculo de la correlación múltiple se basa en la teoría de la regresión múltiple, ya sea por mínimos cuadrados o matricialmente, de acuerdo a nuestra parte de regresión lineal múltiple. Planos de regresión y coeficientes de correlación Vamos a suponer una ecuación de regresión para el caso de tres variables, como a continuación se indica: X1 = b1.23 + b12.3 X2 + b 13.2 X3 Esta ecuación se llama ecuación de regresión lineal de X1 sobre X2 y X3; con b1.23, b12.3, y b13.2 los coeficientes de regresión parcial de acuerdo a la teoría de regresión múltiple. Como observamos, tenemos una variable dependiente X1 y dos variables independientes X2 y X3. Tomando como referencia esta ecuación, si los coeficientes de correlación lineal entre las variables X1 y X2, X1 y X3, X2 y X3 se calculan como en la parte de correlación lineal simple y se denotan, respectivamente, por r12, r13, r23 (también llamados coeficientes de correlación de orden cero), el plano de regresión de mínimos cuadrados tiene la ecuación: x1 donde: s1 = r12 - r13r23 x2 1 - r223 s2 + r13 - r12r23 x3 1 - r223 s3 x 1 = X1 - X1, x2 = X2 - X2, x 3 = X3 - X3, y s 1, s2 y s3 son las desviaciones típicas de X1, X2 y X3, respectivamente 17 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL Error típico de la estimación Tomando como base la teoría de la regresión lineal simple como una generalización de esta definimos al error de la siguiente manera: 2 Σ(X 1 - X 1 est. ) N donde X1 est. Indica los valores de X1 estimados en la recta de regresión. s 1.23 = En términos de los coeficientes de correlación r12, r13, y r23, el error típico de la estimación puede calculares por medio de: s 1.23 = 1 - r 212 + r 213 - r223 + 2r 12r 13r 23 1 - r 223 Coeficiente de correlación múltiple Por analogía con la teoría de correlación simple, el coeficiente de correlación múltiple queda defino por una extensión de la ecuación del coeficiente en correlación simple. En el caso, por ejemplo, de dos variables independientes, el coeficiente de correlación múltiple esta dado por: R 1.23 = 1- s 21.23 s 21 Donde s1 es la desviación típica de la variable X1 y s1.23 se calcula de acuerdo a la fórmula vista en la parte de error típico de la estimación. La cantidad R21.23 se llama coeficiente de determinación múltiple. Cuando se utiliza una ecuación de regresión lineal, el coeficiente de correlación múltiple se llama coeficiente de correlación múltiple lineal. A menos que se especifique de otro modo, siempre que se refiera a correlación múltiple se tratará de correlación múltiple lineal. En términos de r12, r13, y r23, la ecuación anterior puede escribirse como: R 1.23 = r 212 + r 213 - 2r 12r 13r 23 1 - r 223 18 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL Un coeficiente de correlación múltiple, tal como R1.23, se encuentra entre 0 y 1. Cuanto más se acerque a 1 mejor es la relación lineal entre las variables. Cuanto más cerca se encuentra de cero la relación lineal es peor. Si el coeficiente de correlación múltiples 1, la correlación se dice perfecta. Aunque un coeficiente de correlación con valor 0 indica que no existe relación lineal entre las variables, es posible que exista entre ellas una relación no lineal. 19 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL APLICACIÓN PRÁCTICA En la empresa Surtidora Gráfica S.A. de C.V. Se desea saber si se relacionan las variables de lineatura de trama de PMS con la ganancia de punto, cómo se relacionan y el grado en el que las variables se relacionan. Para tal efecto se realizo un estudio del impreso “Carta Bienvenida Bancomer” impreso en selección de color en papel couche de 120 grs. La máquina Offset proporciona las medidas de lineatura por pulgada, mientras que el densitómetro es empleado para determinar la ganancia de punto correspondiente. En una corrida de 1000T/L se realizo a cabo el siguiente estudio con un n= 20 impresos L IN E A S P O R P U L G A D A L in e a tu r a s N eg ro X 1 75 90 90 165 100 125 128 100 110 115 120 180 250 140 280 300 350 300 320 310 L in e a tu r a s M a g e n ta X 2 85 89 85 135 95 165 150 125 130 125 190 160 189 200 250 320 290 320 350 350 L in e a tu r a s C yan X3 90 128 89 140 120 185 140 200 210 128 200 190 220 250 200 290 280 350 360 320 L in e a tu ra s Y e llo w X 4 95 150 96 150 100 100 110 160 210 130 169 200 200 280 240 260 290 300 320 310 G a n a n c ia d e p u n to Y 1 % 7 .5 25 7 .5 30 25 30 25 30 30 25 30 30 40 42 43 45 49 50 50 50 Conocimiento Teórico.La definición de ganancia de punto trata del incremento en los valores tonales del punto de trama (es decir, la superficie relativa que ocupa en la trama) que experimenta en los diversos procesos gráficos por los que atraviesa 20 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL A partir del software Statgraphics es posible definir el modelo y la correlación correspondiente de la relación entre gramaje y tiempo de secado. Regression Analysis - Linear model: Y = a + b1*X1 + b2*X2+ b3*X3 + b4*X4 Parameter CONSTANT Negro Magenta Cyan Yellow Estímate 3.711982 0.0510435 -0.0224212 0.0870096 0.0343141 Error P-Value 3.06246 0.0341314 0.0518854 0.0503742 0.0404302 0.2433 0.1555 0.6718 0.1046 0.4094 Correlation Coefficient = 0.94403 R-squared = 89.1202 % Dependent variable: Ganancia Punto Independen variable: Lineatura de trama Error of Est. = 4.74695 Análisis de Resultados A continuación se muestran describe: los resultados apropiados del modelo lineal que se La ecuación del modelo establece la relación entre la ganancia de punto y las lineaturas de trama del PMS. Ganancia Punto =3.71982+0.0510435*Negro – 0.0224212*Magenta + 0.870096*Cyan + 0.0343141*Yellow b) La r-cuadrada indica estadísticamente al modelo como apto para explicar con 89.1202 % la variabilidad en relación al gramaje. c) El coeficiente de correlación igual a 0.94403 indica una relación fuerte entre las variables. d) El error estándar de la estimación muestra la desviación estándar de 4.74695. Este valor puede ser usado para construir límites de predicción en nuevos experimentos. Se observa que el margen de error es reducido. e) El p-value muestra que efectivamente no se rechaza la hipótesis del modelo que explica la relación fuerte de la lineatura del tramado de selección de color con la ganancia de punto. A partir de lo anterior, el color magenta tiene un p-value lo cual significa que este color representa de manera efectiva la correlación existente. 21 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL CONCLUSIONES El análisis de regresión y correlación lineal constituyen métodos que se emplean para conocer las relaciones y significación entre series de datos. Lo anterior, es de suma importancia para la industria ya que es aquí en donde se presentan variables de respuesta e independientes las cuales interactúan para originar las características de un proceso en particular y por ende; analizar, predecir valores de la variable dependiente y examinar el grado de fuerza con que se relacionan dichas variables. La regresión lineal simple y la regresión múltiple, analiza la relación de dos o mas variables continuas, cuando analiza dos variables a esta se el conoce como variable bivariantes que pueden corresponder a variables cualitativas. La finalidad de una ecuación de regresión es la de estimar los valores de una variable con base en los valores conocidos de la otra. Del mismo modo, una ecuación de regresión explica los valores de una variable en términos de otra. Es decir, se puede intuir una relación de causa y efecto entre dos o más variables. El análisis de regresión únicamente indica qué relación matemática podría haber, de existir una. Por otro lado, Al ajustar un modelo de regresión simple o múltiple a una nube de observaciones es importante disponer de alguna medida que permita medir la bondad del ajuste. Esto se consigue con los coeficientes de correlación. Si el modelo que se ajusta es un modelo de regresión lineal, a R se le denomina coeficiente de correlación y representa el porcentaje de variabilidad de la Y que explica el modelo de regresión. Estas técnicas estadísticas constituyen una herramienta útil para el análisis de las variables de un proceso ya que a través de la aplicación de éstas, es posible conocer el modelo que siguen y la fuerza con que se encuentran relacionadas. Asimismo, es posible explicar la relación que guardan dos o más causas de un posible defecto. 22 Estadística Aplicada B REGRESIÓN Y CORRELACIÓN LINEAL BIBLIOGRAFÍA 1. Ronald E. Walpole y Raymond H Myers. PROBABILIDAD Y ESTADÍSTICA, Sexta Edición. 1998. 2. William Mendenhall y Dennos D. Wackerly. ESTADÍSTICA MATEMÁTICA CON APLICACIONES, Segunda Edición. 1994 Editorial Iberoamericana. 3. Gutiérrez-Pulido, H. y De la Vara Salazar, R. (2005), CONTROL ESTADÍSTICO DE CALIDAD Y SEIS SIGMA, Primera Edición. 2005 Editorial McGraw-Hill, México. 4. Gutiérrez-Pulido, H. y De la Vara Salazar, R. (2003), DISEÑO Y ANÁLISIS DE EXPERIMENTOS, McGraw-Hill, México. 23 Estadística Aplicada