UNIVERSIDAD AUTÓNOMA JUAN MISAEL SARACHO Estadística II TEMA: I ANALISIS DE REGRESION Y CORRELACION 1. 2. 3. 4. 5. 6. 7. 8. 9. Conceptos Generales Tipos de Regresión Regresión Lineal Simple Análisis de Correlación Coeficiente de determinación Regresión de Datos Agrupados Regresión Lineal Múltiple Regresión no Lineal Otras Regresiones 1.3. Regresión Lineal Simple Regresión lineal simple Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. • Una variable es la dependiente y otra la independiente • Se grafica con el diagrama de dispersión. • Dice cómo es la relación entre las dos variables. • El análisis consiste en encontrar la “mejor” línea recta de esos puntos. Modelo de Regresión Lineal Simple. Método estadístico que sirve para ESTIMAR O PREDECIR la relación de dependencia entre 2 o más variables. Y=a+bX Variables: Parámetros: X = Variable Independiente (Explicada; es el valor que conocemos) Y = Variable dependiente (Predictora; es lo que queremos predecir o estimar) a = Es el intercepto, donde cruza el eje Y b = Es la pendiente o inclinación El modelo: regresión lineal simple Constante Pendiente Y=a+bX Variable Dependiente Variable Independiente El modelo: la recta Y=a+bX Eje y Intercepto pendiente y2 b y1 a x1 x2 Eje x Si queremos predecir Y a partir de X, necesitamos calcular la recta de regresión de Y sobre (a partir de) X. Tenemos una DIAGRAMA DE DISPERSION que es una conjunto de puntos en el plano Recta ajustada La recta de ajuste mínimos cuadrados es: 𝐘= a + bX por 𝒀 Para ajustar un diagrama de dispersión a una recta o curva se emplea el método de MINIMOS CUADRADOS ' Y Y i 𝐘i n 2 i 1 Esta sumatoria se debe procurar que sea lo mas pequeño posible significaría una aproximación y viceversa OBJETIVO DE LA CORRELACIÓN Medir el grado o fuerza de la asociación entre dos variables cuantitativas A través del coeficiente de correlación No estima la bondad del ajuste de unos datos a un modelo OBJETIVO DE LA REGRESIÓN Buscar la línea que mejor se ajusta a los puntos Como medimos los coeficientes A. Grado del coeficiente de Correlación El valor de r está entre ( -1) y ( +1) El valor de r denota la fuerza de la asociación como se ilustra en el siguiente diagrama. fuerte -1 Correlación perfecta débil intermedio -0.75 -0.25 0 Sin relación intermedio 0.25 fuerte 0.75 1 Correlación perfecta B. Coeficiente de determinación 𝒓𝟐 r2 INTERPRETACIÓN Coeficiente muy importante en regresión, ya que compara lo explicado por la regresión lineal con la variabilidad total Porcentaje de la variabilidad total de la variable dependiente que es explicada por la variable independiente VALORES Los posibles valores para r2 van desde 1, que es el máximo, a 0 que es el mínimo +1 La recta daría una explicación perfecta, es decir, los valores de “y” están totalmente determinados por la “x” 0 La recta no explica nada, es decir, no existe asociación entre “x” e “y” C. Coeficiente de estimación 𝑺𝑿𝒀 Mide la magnitud del error cometido al calcular un valor de Y para un cierto valor de X . Mide la variabilidad respecto del pronostico obtenido. Este pronostico tiene un margen de error +/- EJERCICIO 1 Una empresa A toma la muestra de sus 10 sucursales para tratar de encontrar un modelo matemático que permita predecir sus ventas. Pasos para resolver 1. 2. 3. 4. 5. Definir las variables y graficar el diagrama de dispersión Construcción de la tabla Obtener los parámetros a y b Obtener la ecuación Ŷ estimada y graficar Realice una regresión para estimar la ventas de dos sucursales en las que se tiene 14.000 y 30.000 personas. 6. Calcular los coeficiente de correlación, determinación y estimación; interpretación los coeficientes. Población Ventas de personas trimestrales miles miles Bs. N° (X) (Y) 1 2 58 2 6 105 3 8 88 4 8 118 5 12 117 6 16 137 7 20 157 8 20 169 9 22 149 10 26 202 1. Definir las variables y graficar el diagrama de dispersión Diagrama de dispersión: N° 1 2 3 4 5 6 7 8 9 10 Población de personas miles (X) 2 6 8 8 12 16 20 20 22 26 Ventas trimestrales miles Bs. ( Y) 58 105 88 118 117 137 157 169 149 202 200 175 150 125 100 75 50 25 5 10 15 20 25 2. Construcción de la tabla 𝑿 =140/10= 14 (X) (Y) Población ventas en en miles miles 2 6 8 8 12 16 20 20 22 26 58 105 88 118 117 137 157 169 149 202 140 1300 XY 𝑿𝟐 116 4 3364 630 36 11025 704 64 7744 944 64 13924 1404 144 13689 2192 256 18769 3140 400 24649 3380 400 28561 3278 484 22201 5252 676 40804 21040 2528 𝒀𝟐 184730 Ῡ = 1300/10= 130 𝟐 (X - 𝑿) (Y - 𝒀) (X- 𝑿) (Y - 𝑿) (𝑿 − 𝑿) -12 -8 -6 -6 -2 2 6 6 8 12 -72 -25 -42 -12 -13 7 27 39 19 72 (𝒀 − 𝒀)𝟐 864 200 252 72 26 14 162 234 152 864 144 64 36 36 4 4 36 36 64 144 5184 625 1764 144 169 49 729 1521 361 5184 2840 568 15730 3. Obtener el parámetro a y b A: Método de sistema de ecuaciones : Y=a+bX Datos de la tabla ∑Y = a N + b ∑X Remplazamos en el sistema normal de ecuaciones ∑XY = a ∑ X + b∑𝑿𝟐 Así obtenemos 2 ecuaciones 1300 = a 10 + b 140 ❶ 21040 = a 140 + b 2528 ❷ ∑𝒀 = 1300 ∑𝑿 = 𝟏𝟒𝟎 ∑XY = 21040 ∑𝑿𝟐 = 2528 ∑𝒀𝟐 = 184730 N = 10 De estas 2 ecuaciones debemos despejar los parámetros : a y b 1300 = a 10 + b 140 ❶ 21040 = a 140 + b 2528 ❷ Con las ecuaciones 1 y 2 obtenemos los para metros reducción de ecuaciones: a y b para ello aplicamos el método de Primero multiplico la ecuación ❶ por (- 140) toda la fila y la ecuación ❷ por (10) - 140 10 (-140)* 1300 = a(-140)* 10 + b (-140)*140 (10)*21040 = a (10)*140 + b(10)* 2528 Luego de multiplicado; realizamos la operación de resta entre la 1ra. Y 2da. fila - 182000 = - a 1400 - b 19600 210400 = a 1400 + b 25280 28400 = b 5680 De la diferencia queda: 28400 = b 5680 28400 b= 5680 b=5 Para encontrar el Valor del parámetro a, remplázanos el valor del parámetro encontrado b= 5 en cualquiera de las ecuaciones 1 o 2. 1300 = a 10 + b 140 Remplazando b=5 en ecuación: 1: 1300 = a 10 + (5) 140 Multiplicando tenemos: 1300 = a 10 + 700 Despejamos parámetro a: 1300- 700 = a 10 600 = a 10 a = 600 10 a = 60 ❶ 21040 = a 140 + b 2528 ❷ B. Por el método directo Podemos también obtener los parámetros a y b por el método directo utilizando las siguientes formulas: a= b= ∑ 𝑋 2 − ∑ 𝑋 ∑𝑋 𝑌 ∑𝑌 𝑁 ∑𝑋 2 − (∑𝑋)2 𝑁 ∑ 𝑋 𝑌 − ∑𝑋 ∑ 𝑌 Remplazamos en la formula 2 𝑁 ∑ 𝑋 2 − (∑ 𝑋) ∑𝒀 = 1300 ∑𝑿 = 𝟏𝟒𝟎 ∑XY = 21040 ∑𝑿𝟐 = 228 ∑𝒀𝟐 = 184730 (∑𝑿)𝟐 = 19600 N = 10 Datos de la tabla Remplazamos en la formula, y luego realizamos las operaciones necesarias para obtener los parámetros: 1300 ∗2528 −140 ∗21040 a= 10 ∗2528 − 19600 10 ∗ 21040 −140 ∗1300 b= 10 ∗2528 −19600 3286400−2945600 a= 25280 −19600 210400−182000 b= 25280 −19600 a= 𝟑𝟒𝟎𝟖𝟎𝟎 𝟓𝟔𝟖𝟎 a = 60 b= 𝟐𝟖𝟒𝟎𝟎 𝟓𝟔𝟖𝟎 b=5 4. Obtener la ecuación de ajuste Tenemos nuestra ecuación general, también tenemos los valores de los parámetros a y b, estos remplazamos en la ecuación: Parámetros a = 60 b=5 Ecuación Y=a+bX Ecuación de ajuste 𝒀 = 60 + 5 X 5. Realice una regresión para estimar la ventas de dos sucursales en las que se tiene 14.000 y 30.000 personas Para estimar las ventas remplazamos los valores de las poblaciones dadas en la ecuación de ajuste Para X = 14: 𝑌 = 60 + 5 (14) 𝑌 = 60 + 70 𝑌 = 130 Para la 1ra sucursal con población de 14.000 las ventas se estiman que serán 130.000 Bs. Para X = 30 𝑌= 60 + 5 (30) 𝑌 = 60 + 150 𝑌 = 210 Para la 2ra sucursal con población de 30.000 las ventas se estiman que serán 210.000 Bs. Graficar la línea de estimación de las ventas de las poblaciones consideradas, con los puntos de obtenidos con la población de las dos sucursales: (14, 130) (30, 210) Grafico de la línea estimada de las ventas: 200 175 125 100 75 50 25 6 12 18 24 30 6. Calculo de los coeficientes de correlación r= ∑ X − 𝑿 (𝒀 − 𝒀) 𝑵 ∑ (𝑿 − 𝑿)𝟐 𝑵 ∑ (𝒀 −𝒀)𝟐 𝑵 Remplazamos ∑(X- 𝑿) (Y - Ῡ) = 2840 ∑(𝑿 − 𝑿)𝟐 = 568 ∑(𝒀 − 𝒀)𝟐 = 15730 N = 10 Datos de la tabla Remplazados los valores en la formula de regresión , realizamos las operaciones necesarias para obtener r: r= 2840 10 568 15730 10 10 r= 284 56,8 1573 = 284 7,53 ∗39,56 = 284 297,886 r = 0,95 Interpretación del coeficiente de correlación: -1≤r≤1 r = 0,95 INTERPRETACIÓN: Tenemos una correlación fuerte entre la variable Población (X) y la variable ventas (Y) -1 1 0 Donde r puede ser: Perfecta: Fuerte: Moderada: Debil: Muy Débil: Nula: +/+/+/+/+/0 1 0.99 – 0.6 0.6 – 0.4 0.4 – 0-2 0.2 – 0.01 Calculo del coeficiente de Determinación r = 0,95 Coeficiente de correlación Para encontrar el valor del coeficiente de determinación 𝒓𝟐 elevamos al cuadrado el valor del coeficiente de correlación r: 𝑟 2 = (0,95)2 Coeficiente de determinación 𝑟 2 = 0,902 0,902*100 = 90,02 % Explica la variable Y de la variable X Interpretación: el 90 % de la ventas (Y) se explica mediante la variación de la cantidad de población (X) de las sucursales y el 10 % restante dependen de otras variables. Calculo del coeficiente de estimación 𝑆𝑌𝑋 = ∑ 𝑌2 −𝑎 ∑ 𝑌 −𝑏 ∑ 𝑋 𝑌 𝑁 −2 Remplazamos Donde: 𝐒𝐗𝐘 : Coeficiente de estimación (error típico o estándar) b: Pendiente de la recta de regresión a: Ordenada a la recta de la línea de regresión N: Numero total de datos ∑Y: Sumatoria de los datos de la variable Y ∑𝒀𝟐 : Sumatoria de los datos de la variable Y al cuadrado ∑XY: Sumatoria del producto de X por Y ∑𝒀 = 1300 ∑𝒀𝟐 = 184730 ∑XY = 21040 N = 10 a = 60 b=5 Datos de la tabla Remplazado los valores en la formula de estimación, realizamos las operaciones necesarias para obtener el coeficiente: 𝑆𝑋𝑌 𝑆𝑌𝑋 = 184730 −60∗1300−5∗21040 10−2 𝑆𝑌𝑋 = 184730 − 78000 − 105200 8 = 1530 8 ∑𝒀 = 1300 ∑𝒀𝟐 = 184730 ∑XY = 21040 N = 10 a = 60 b=5 = 191,25 𝑺𝒀𝑿 = 13,829 INTERPRETACION: Podemos decir que nuestra estimación tendrá un margen de error de +/- 13,829. así que para una predicción de una determinada población las ventas pueden variar´+/- 13,829 Gracias………..