ESTADÍSTICA D37. tema 5 TEMA 5 DISTRIBUCIONES BIDIMENSIONALES 5.1.5.2.5.3.5.4.5.5.5.6.5.1.- Introducción Distribuciones estadísticas bidimensionales: tabla de correlación Representaciones gráficas: diagrama de dispersión Distribuciones marginales Distribuciones condicionadas. Caso de independencia estadística Covarianza. Caso de independencia Introducción Estudiaremos dos características de un mismo elemento de la población (altura y peso, dos asignaturas, longitud y latitud). De forma general, si se estudian sobre una misma población y se miden por las mismas unidades estadísticas una variable X y una variable Y, se obtienen series estadísticas de las variables X e Y. Considerando simultáneamente las dos series, se suele decir que estamos ante una variable estadística bidimensional. 5.2.- Distribuciones estadísticas bidimensionales: tablas de doble entrada o de contingencia o de correlación Tablas de doble entrada o de contingencia Sea una población estudiada simultaneamente según dos caracteres X e Y; que representaremos genéricamente como (xi; yj ; nij), donde xi; yj, son dos valores cualesquiera y nij es la frecuencia absoluta conjunta del valor i-ésimo de X con el i-ésimo de Y. Una forma de disponer estos resultados es la conocida como tabla de doble entrada o tabla de contingencia, la cual podemos representar como sigue: Y ….. ….. y1 y2 yj yk ni . X x1 n11 n12 ….. n1j ….. n1k n1 . x2 n21 n22 ….. n2j ….. n2k n2 . . . . . . . . . …. . . . . …. . . . . . xi ni1 ni2 ….. nij ….. nik ni . . . . . . . . . . . …. . . . . . …. . . . . . . . xh nh1 nh2 ….. nhj ….. nhk nh . n. j n. 1 n. 2 ….. n. j ….. n. k N En este caso, n11 nos indica el número de veces que aparece x1 conjuntamente con y1; Apuntes de estadística pág 1 de 4 ESTADÍSTICA D37. tema 5 n12, nos indica la frecuencia conjunta de x1 con y2, etc. 5.3.- Representaciones gráficas: diagrama de dispersión o nube de puntos Representamos en ejes coordenados, una de las dos variables en el eje X, y la otra en el eje Y. Para indicar el número de coincidencias, o bien ponemos símbolos diferentes, o bien indicamos entre paréntesis, el número n ii. Nube de puntos Pesos (kg.) 82 77 72 67 62 57 150 155 160 165 170 175 180 Alturas (cm.) 5.4.- Distribuciones marginales Dada la distribución bidimensional (xi ; yj ; nij), se llaman distribuciones marginales a cada una de las dos distribuciones unidimensionales que se pueden obtener, de forma que en cada una de ellas no se tenga en cuenta la otra, es decir, dada la siguiente distribución bidimensional; Y X y1 y2 y3 y4 ni. x1 n11 n12 n13 n14 n1 . x2 n21 n22 n23 n24 n2. x3 n31 n32 n33 n34 n3 . x4 n41 n42 n43 n34 n4. n.j n.1 n.2 n.3 n.4 N podemos obtener las siguientes distribuciones marginales X Y xi ni. yj n.j x1 n1. y1 n.1 x2 n2. y2 n.2 x3 n3 . y3 n.3 x4 n4. n y4 n.4 n Por tanto, podemos decir: Apuntes de estadística pág 2 de 4 ESTADÍSTICA D37. tema 5 n N i 1 j 1 n j . n. j nij n 5.5.- Distribuciones condicionadas. Caso de independencia estadística Al poner una restricción o condición a una de las dos variables, tenemos las distribuciones condicionadas. Se las suele representar como: X/Y , indica que el valor de X viene condicionado por Y Y/X indica que el valor de Y viene condicionado por X Independencia estadística Se dice que dos variables X e Y son independientes estadísticamente cuando la frecuencia relativa conjunta es igual al producto de las frecuencias relativas marginales en todos los casos, es decir: nij n n. j Para todo i, j i .·· n n n Si esto no se cumple para todos los valores se dice que hay dependencia estadística. 5.6.- Covarianza. Caso de independencia En el estudio conjunto de dos variables, lo que nos interesa principalmente es saber si existe algún tipo de relación entre ellas. Esto se ve gráficamente con el diagrama de dispersión. Veremos ahora una medida descriptiva que sirve para medir o cuantificar esta relación: n k S xy i 1 j 1 ( x i x )( y j y )n ij n Si Sxy >0 hay dependencia directa (positiva), es decir a grandes valores de x corresponden grandes valores de y. Si Sxy = 0 las variables están incorreladas, es decir no hay relación lineal. Si Sxy < 0 hay dependencia inversa o negativa, es decir a grandes valores de x corresponden grandes valores de y. Gráficamente, indicaría la Covarianza, que los datos, se ajustan a una recta, en los siguientes casos: Sxy >0 Sxy<0 PROPIEDADES DE LA COVARIANZA: 1.- Si a todos los valores de la variable x, les sumamos una constante k y a todos los valores de la variable y les sumamos una constante k’, la covarianza no varía. 2.- Si a todos los valores de una variable x los multiplicamos por una constante k y a todos los valores de la variable y los multiplicamos por una constante k’, su covarianza queda multiplicada por el producto de las constantes. 3.- A partir de las anteriores: si tenemos dos variables x, y con la covarianza Sxy, y transformaciones lineales de las variables de la forma z=ax+b, y t=cy+d, la nueva covarianza se relaciona con la anterior de la forma: Szt=acSxy. Apuntes de estadística pág 3 de 4 ESTADÍSTICA D37. tema 5 4.- Otra forma de calcular la Covarianza sería: S xy i x i y j n ij n j X Y . Será la que utilizaremos en la práctica. NOTA: El inconveniente de la covarianza, como medida de asociación es su dependencia de las unidades. Habrá que definir una nueva medida, que no está afectada por los cambios en las unidades de medida. Esta medida será el coeficiente de correlación lineal rxy, con la siguiente expresión: S xy r xy Sx Sy siendo Sx y Sy las desviaciones típicas de x e y. Este coeficiente es adimensional y siempre estará entre –1 y 1. Si hay relación lineal positiva, rxy>0 y próximo a 1. Si hay relación lineal negativa rxy<0 y próximo a –1. Si no hay relación lineal rxy será próximo a 0. Nota: Cuando las variables x e y son independientes, Sxy =0, y por tanto rxy=0. Es decir, si dos variables son independientes su covarianza vale cero. No podemos asegurar lo mismo en sentido contrario. Si dos variables tienen covarianza cero, no podemos decir que son independientes. Sabemos que linealmente no tienen relación, pero podrían tener otro tipo de relación y no ser independientes. Ejemplo: A partir de los siguientes datos, vamos a calcular la Covarianza y el coeficiente de correlación: Altura Peso 175 180 162 157 180 173 171 168 165 165 80 82 57 63 78 65 66 67 62 58 Los cálculos que necesitamos: x 169'6 s xy s x 7'2139 s y 8'7567 y 67'8 175 80 180 82 162 57 169'6 67'8 52'32 10 Ahora se puede calcular el coeficiente de correlación lineal rxy y el de determinación lineal R2 52'32 rxy 0'8282 7'2139 8'7567 que nos indica que las variables están relacionadas. Apuntes de estadística pág 4 de 4