Universidad Técnica Federico Santa María Universidad Técnica Federico Santa María Departamento de Informática ILI-280 Capítulo 2 Análisis de datos (Bivariados (Bivariados)) Estadística Computacional I Semestre 2006 Parte II Profesores: Carlos Valle (cvalle@inf.utfsm.cl) Página: www.inf.utfsm.cl/~cvalle Estadística Bivariada Supongamos que se toma una muestra de tamaño n de una población y que se desea estudiar, dos características de un mismo objeto . Sean estas características X e Y. Siguiendo los procedimientos habituales, la Muestra se divide en r clases Ai para la variable X s clases Bj para la variables Y Existirán elementos que pertenecerán simultáneamente a AiBj. Los datos los podemos ordenar en una tabla o matriz llamada Tabla de Contingencia Profesor C.Valle 2 1 Universidad Técnica Federico Santa María Tabla de Contingencia Y B1 B2 ..... Bj ..... Bs Total A1 n11 n12 ..... n1j ..... n1s n1 A2 n21 n22 ..... n2j ..... n2s n2 Ai ni1 ni2 ..... nij ..... nis n i Ar nr1 nr2 ..... nrj ..... nrs nr Total n1 n2 ..... nj ..... ns n X Profesor C.Valle n _ =n 3 Tabla de Contingencia Y B1 B2 ..... Bj ..... Bs Total A1 f11 f12 ..... f1j ..... f1s f1 A2 f21 f22 ..... f2j ..... f2s f2 Ai fi1 fi2 ..... fij ..... fis f i Ar fr1 fr2 ..... frj ..... frs fr Total f1 f2 ..... fj ..... fs f X Profesor C.Valle f =_ 1 4 2 Universidad Técnica Federico Santa María Tabla de Contingencia nij = Frecuencia Absoluta de la clase conjunta AiBj. (Valor observado en la celda (i,j) de la Tabla de Contingencia) fij = nij n r Frecuencia Relativa “conjunta” de la clase conjunta correspondiente a la intersección de Ai y Bj. s ∑∑ f ij =1 i =1 j =1 s ni• = ∑ nij j =1 Frecuencia Absoluta de la clase Ai; para i= 1, ,2, ... ,r (Independiente de la clases Bj a la que estén asociadas Suma de los valores de la fila i-ésima ) r n• j = ∑ nij i =1 Frecuencia Absoluta de la clase Bj; para j= 1, ,2, ... ,s (Independiente de las clases Ai a la que estén asociadas. Suma de los valores de la columna j-ésima) Profesor C.Valle 5 Frecuencias Marginales Dado el experimento anterior, cuando sólo interesa conocer la frecuencia de ocurrencia de cada una de las variables por separado se habla de Frecuencia Marginal de la variable X o Y Frecuencia (relativa) “marginal” de la variable X, Conjunto de valores pertenecientes a la clase Ai, considerándola independientemente de la clase Bj Frecuencia (relativa) “marginal” de la variable Y, Conjunto de valores pertenecientes a la clase Bj, considerándola independientemente de la clase Ai Profesor C.Valle 6 3 Universidad Técnica Federico Santa María Estadística Bivariada Notación: Sean fij := frecuencia relativa conjunta AiBj = fr(xi,yj) fi = i ∑f ij ∑ f (x , y ) = f (x ) = frec relativa marginal = r j ∑f f j= i ij r j i ∑ f (x , y ) = f ( y ) = frec. relativa marginal = i fi/j = i j r i r j j i fij f• j = frec. relativa condicional=fr ( xi / yj) = fr ( xi , y j ) fr ( y j ) Profesor C.Valle 7 Tabla de Contingencia Para frecuencias relativas , i = 1,....,r se tiene: s f i • = ∑ f ij j =1 r f • j = ∑ f ij i =1 (Suma de los valores de la fila i-ésima de la tabla de frecuencias conjuntas) (Suma de los valores de la columna j-ésima de la tabla de frecuencias conjuntas) Además se verifica que: n fi• = i• n•• f• j = n• j n•• Profesor C.Valle fi/j = n fij = ij f• j n• j 8 4 Universidad Técnica Federico Santa María Tabla de Contingencia Ejemplo Una tela se clasifica en tres categorías A, B y C según cantidad y severidad de pequeñas imperfecciones. La empresa tiene 5 telares, en un mes dado de producción se registraron los siguientes datos. # piezas de tela en la clasificación A B C Telar 1 2 3 4 5 Marginal 185 190 170 158 185 888 16 24 35 22 22 119 12 21 16 7 15 71 Marginal 213 235 221 187 222 1078 Profesor C.Valle 9 Frecuencia Condicional • Cuando se “pregunta” por la frecuencia relativa de una de las variables, digamos X, restringida a los elementos observados de la clase Bj según Y; esto es, estudiar el comportamiento de una variable dado un valor fijo de la otra. Se obtiene la frecuencia relativa condicional fi/j = fij f• j nij =n f ,f ,f 1/j 2/j Frecuencia (relativa) de la variable X en la clase conjunta AiBj, “dado” que sólo nos interesa respecto a lo observado en la clase Bj de la variable Y; para i = 1, 2, .., r •j 3/j, ... , f r/j Constituye la distribución de frecuencia relativa condicional de la variable X dada la clase Bj de la variable Y. Nótese que se trabaja “condicionado” sobre un tamaño de muestra “reducido” al número de observaciones de la clase Bj dada Profesor C.Valle 10 5 Universidad Técnica Federico Santa María Independencia Estadística Se dice que X es independiente de Y si las frecuencias condicionales de X/Y son todas iguales; es decir, no dependen de la clase condicionante, esto es i/1 n i1 = f n i/2 i2 = f n i/3 i3 n• 1 = n• 2 = n• 3 Luego Como = .... = =.... = fi/j = fi• fij fi/j = f• j n is n• S f i/s = f A f i = 1, 2, 3, ... , r i• n + i1 n + i2 n i3 +.... + n n n• 1+ n• 2 + n• 3 +.... + n•iss = n ••i• = f i• f = f• j similarmente j/i f = fi/j × f•j ij fij = fi• × f• j Profesor C.Valle 11 Estadística Bivariada Notación: Análogamente, se tiene: fj/i = fij fi• = frecuencia condicional = f r ( y j / xi ) = fr ( xi , y j ) fr ( xi ) Independencia Estadística X e Y son variables estadísticamente independientes ssi: fr ( y j / xi ) = fr ( y j ) fi/j = fi• ó fr ( xi / y y ) = fr ( xi ) ó fj/i = f• j Profesor C.Valle 12 6 Universidad Técnica Federico Santa María Estadística Bivariada Independencia Estadística como fij = fj/i × fi• ⇒ fij = f• j × fi• Asociación de Variables Datos no agrupados Cov (x,y) = Datos agrupados : Cov(x,y) = 1 ∑ ( xi − x)( yi − y) n ∑ fi ( xi − x)( yi − y ) Coeficiente de Correlación = r = Cov (x,y) Sx Sy Profesor C.Valle 13 Ejercicio Fallas Anuales Temperatura 120 140 160 Marginal 20 12 4 - 15 7 10 5 10 5 2 10 45 24 16 15 37 27 100 Averías 2 3 4 5 Marginal 36 Obtener : Distribuciones marginales Distribuciones condicionales (4 averías), Media y Varianza condicional Profesor C.Valle 14 7 Universidad Técnica Federico Santa María Ejercicio Fallas Anuales Temperatura 120 140 160 Marginal 0,20 0,12 0,04 0 0,15 0,07 0,10 0,05 0,10 0,05 0,02 0,10 0,45 0,24 0,16 0,15 0,36 0,37 0,27 1,00 Averías 2 3 4 5 Marginal fj/4 ={ 2/8; 5/8; 1/8} Xj/4 =137,5 Vj/4= 2/8(120-137,5)2 +5/8(140-137,5)2 +1//8(160-137,5)2 = Profesor C.Valle 15 Modelo Estadístico (Lineal) y = β 0 + β1x + ε x , y son variables independiente y dependiente respectivamente. Además ε una variable estadística que representa el error. Los parámetros β0 y β1 pueden ser estimados a partir de los datos {(xi , yi)}i=1,...,n mediante método de mínimos cuadrados. Sea ; ei = yi − yˆ i = yi − βˆ 0 − βˆ1 xi Entonces Profesor C.Valle 16 8 Universidad Técnica Federico Santa María n n min ∑ ei = min ∑ ( yi − β 0 − β1 xi ) 2 β 0 β1 2 β 0 β1 i =1 i =1 n SC E = ∑ ei 2 i =1 β̂1 = SC xy βˆ 0 = y − βˆ1 x SC x n SC x = ∑ ( xi − x ) n SC xy = ∑ ( xi − x )( yi − y ) 2 i =1 i =1 n VNE = ∑ ei 2 =1 Profesor iC.Valle 17 Curvas de Regresión t 0 1 2 3 4 5 6 V(t) 30 20 60 40 20 46 32 26 10 14 12 4 8 17 V(t) 25 40 46 29 12 6 17 Sea xt = sen t Luego yt = V(t) y(t) = a + b xt + εt min Q( a, b) = min ∑ ( yt − a − bxt ) 2 a ,b a ,b t Profesor C.Valle 18 9 Universidad Técnica Federico Santa María cov( x, y ) bˆ = = 20 2 Sx aˆ = y − bˆ x = 25,3 ∑( y 2 S y = 1276 t − yˆ t ) 2 = 22,45 % de Ajuste del Modelo = ∑ eˆ 1− Sy 2 t 2 = 0,98 ∗100% = 98% Profesor C.Valle 19 Transformaciones Sea yi = h ( xi ) con i = 1,...,n 1. Lineales yi = axi + b y = ax + b Sy = a Sx 2. No lineales yi = h( xi ) 1 y = h(x) + 2 h”(x) SX2 Sy2≈ Sx2 [ h’ (x)]]2 En particular h(x) = ln x 1 y = ln x - 2 ( Sx2 / x2 ) Sy2 ≈ ( Sx2 / x2 ) = CV 2 Profesor C.Valle 20 10 Universidad Técnica Federico Santa María Universidad Técnica Federico Santa María Departamento de Informática ILI-280 Análisis de una Bivariada como muestra estratificada Análisis de una muestra estratificada E1 n1 V 1 E2 n2 V2 X2 m ∑n h h =1 X1 nm Xm =n Em ph = Vm nh n m- estratos Supongamos que la variable admite una clasificación en k - clases, representadas por X1, X2,.....Xk. Profesor C.Valle 22 11 Universidad Técnica Federico Santa María Análisis de una muestra estratificada nih = Cantidad de individuos de la submuestra del estrato “h” que pertenece a Ci. k n fih = ih nh k ∑f ih ∑n =1 ih i =1 = nh i =1 k k Vh = ∑ fih ( X i − X h ) 2 X h = ∑ fih X i i =1 i =1 m fi = ∑ phfih h =1 Profesor C.Valle 23 Análisis de una muestra estratificada Entonces: m X = ∑ ph X n h =1 m m h =1 h =1 VT = ∑ phVh + ∑ ph ( X h − X ) 2 VT = Vint ra + Vint er Profesor C.Valle 24 12 Universidad Técnica Federico Santa María Ejemplo Se tiene 3 criaderos de aves. En el criadero (1) se ponen 50 pollos recién nacidos; en el (2) 200 pollos y en el (3) 100 pollos. Al cabo de un cierto tiempo se pesan los 350 pollos, encontrándose que algunos están muertos y los vivos pesan entre 1,00 [kg]. y 2,50 [kg]. Para los efectos del registro los pollos muertos se supondrán de peso cero, y el cero actuará como centro del supuesto intervalo. Los otros intervalos serán [1,00 ; 1,50]] [1,50 ; 2,00]] [2,00 ; 2,50]]. Calcular Centros Frecuencias Absolutas (1) (2) (3) 0 5 10 10 1,25 10 20 30 1,75 30 150 50 2,25 5 20 10 X h , Vh , X , VT Vint er , Vint ra Note que existen 3 estratos y 4 clases Profesor C.Valle 25 Análisis Muestra Estratificada Frecuencia Relativa Histograma Apilado por Peso 0,7 0,6 0,5 Criadero 1 0,4 Criadero 2 0,3 Criadero 3 0,2 0,1 Peso 0 0 1,25 1,00 1,75 1,50 Profesor C.Valle 2,25 2,00 2,50 26 13 Universidad Técnica Federico Santa María Análisis Muestra Estratificada Frecuencia Relativa Histograma por Estrato y por Peso 0,5 0,4 0,3 Criadero 1 Criadero 2 0,2 Criadero 3 0,1 Peso 0 0 1,25 1,75 1,00 1,50 2,25 2,00 2,50 Profesor C.Valle Estrato (1) P1=1/7 Xi fi1 fi1X1 Xi-X1 0 1,25 1,75 2,25 0,1 0,2 0,6 0,1 0 0,250 1,050 0,225 -1,525 -0,275 0,225 0,725 Estrato (2) 0 1,25 1,75 2,25 ( )2 fi1( )2 2,325 0,0756 0,0501 0,525 0,2325 0,0151 0,0304 0,0526 X1=1,525 V1=0,331 P2=4/7 fi2 fi2X1 Xi-X2 ( )2 fi2( )2 0,05 0,10 0,75 0,10 0 0,125 1,312 0,225 -1,662 -0,412 0,088 0,588 2,76 0,17 0, 01 0,35 0,138 0,017 0,006 0,035 Estrato (3) 0 1,25 1,75 2,25 27 X2=1,662 V2=0,195 P3=2/7 fi3 fi3X1 0,10 0,30 0,50 0,10 0 0,375 0,875 0,225 Xi-X3 ( )2 fi3( )2 -1,475 2,17 0,218 -0,225 0,05 0,015 0,275 0, 08 0,039 Profesor C.Valle 0,775 0,60 0,060 X3=1,475 V3=0,331 28 14 Universidad Técnica Federico Santa María Estratos Ph (1) (2) (3) 1/7 4/7 2/7 Media Varianza PhXh Xh Vh 1,525 1,662 1,475 0,331 0,195 0,331 0,218 0,950 0,421 1,589 PhVh Xh-X 0,047 0,111 0,095 0,253 -0,064 0,073 -0,114 (X-Xh)2 Ph( )2 0,004 0,005 0,013 0,00058 0,00305 0,00371 0,0073 Profesor C.Valle 29 Resultados Se ha obtenido, entonces: Media Total X = 1,589 Varianza promedio dentro de los estratos Vintra= 0,253 Varianza entre estratos Vinter= 0,0073 Varianza Total VT= 0,2606 Profesor C.Valle 30 15