Introducción “Exploratory data analysis is detective work – numerical detective work- or counting detective work – or graphical detective work” Tukey, 1977 (pág 1) El análisis exploratorio de datos (EDA), según unos, nueva rama de la estadística, según otros, una extensión de la estadística descriptiva, propugna un cambio de actitud y de enfoque metodológico ante el análisis de datos. El EDA propugna que previo a cualquier análisis estadístico, es necesario un examen cualitativo de los datos, hay que comprender y reflexionar sobre la información que ellos contienen. La estadística descriptiva clásica se ocupa de describir los datos a través de gráficos y de algunas medidas de tendencia central y de dispersión. El EDA tiene los mismos objetivos pero además pretende detectar anomalías o errores en las distribuciones univariantes de los datos. También intenta descubrir patrones o modelos. Para ello incorpora nuevas técnicas gráficas y busca estadísticos resistentes y robustos basados en las estadísticas de orden y centrados en la mediana. El EDA potencializa los índices de forma, y la utilización de gráficos, prácticamente, como un índice más, una gráfica bien realizada puede ser mas informativa que un conjunto de números. 1 Estadística descriptiva Frecuencias e histogramas Supongamos que se tiene un conjunto de n observaciones xi | i 1,2,3,, n, denominado muestra, de una variable aleatoria X o de una población . Uno de los problemas es conocer la distribución de la muestra. Con este fin se divide a la muestra en rangos o clases continuas de igual longitud, sean r1 , r2 ,, rk los rangos. Frecuencia relativa La frecuencia relativa de la clase rj es: fj card{xi | xi r j } n ni n Si la muestra es aleatoria y n es suficientemente grande, se puede hacer la siguiente aproximación1 f j Pˆn ( X r j ) P( X r j ) P̂n es la probabilidad empírica (suma de frecuencias), mientras que P es la probabilidad teórica. Histograma El gráfico de las frecuencias relativas; en ordenadas los valores fj y en abscisas las clases rj, se denomina histograma. Es claro 1 Ley débil de los grandes números: Dacunha-Castelle, p. 33 y 102 2 que la forma del histograma depende del número de clases, no deben ser muchas ni muy pocas. No existe una regla que determine el número de clases, en general deben ser alrededor de n y no menos de 52. Función de distribución (empírica) También se define la función de distribución acumulada 1 si xi x 1 n Fˆn ( x) I ( xi x) donde I ( xi x) n i 1 0 si xi x Uno de los pilares de la estadística clásica es la convergencia de la distribución empírica hacia la distribución teórica. Teorema de Glivenko – Cantelli3 sup Fˆn ( x) F ( x) 0 x n F ( x) P( X x) Ejemplo Suponga que se ha seleccionado una muestra aleatoria simple de 15 personas y se les ha preguntado su salario mensual en dólares. Los salarios, previamente ordenados, son: 53, 86, 163, 183, 206, 224, 259, 652, 842, 1139, 1433, 2198, 2215, 2410, 4592 Como 15 3.87 dividiremos la muestra en 5 clases. 2 3 Para una mayor discusión sobre el tema ver: Freixa, pag. 42. Dacunha- Castelle pag. 104 3 Clase ni fj Menos de 620 De 620 a 1755 De 1755 a 2889 De 2889 a 4024 Más de 4024 7 4 3 0 1 0.47 0.27 0.20 0 0.07 Fˆn ( x j ) 0.47 0.73 0.93 0.93 1.00 Histograma El histograma pone en evidencia una distribución completamente asimétrica. El 47% tienen salarios inferiores a $620, mientras que el 7% tienen salarios superiores a 4024. Medidas de tendencia central y de dispersión Media Es el índice clásico de tendencia central. Se define por: x 1 n xi n i 1 Moda Es el valor o los valores mas frecuentes. Su uso es restringido porque pueden existir varias modas o su frecuencia puede ser irrelevante con respecto a la frecuencia de los otros datos, en especial cuando los datos son de tipo continuo. Si en el ejemplo anterior, calculamos la frecuencia de cada uno de los salarios, vemos que todos tiene la misma frecuencia, no existe una moda, pero si consideramos los 5 rangos de salarios, existe uno que es claramente modal, el primero. 4 Varianza Es una medida de dispersión, en promedio, mide como se alejan los datos de la media. Su definición es: s2 1 n ( xi x ) 2 n 1 i 1 Desviación estándar El problema de la varianza es que sus unidades están elevadas al cuadrado, por ejemplo si calculamos la varianza de los salarios tendríamos dólares al cuadrado, lo que no tiene mucho sentido. Por esta razón, se acostumbra calcular la raíz cuadrada de la varianza, lo que se denomina desviación estándar. s s2 Coeficiente de variación Es una medida adimensional de la dispersión. Es la dispersión con respecto a la media, su fórmula es: cv s x Ejemplo. Para los 15 salarios se tiene: x 1110.33, s 2 1632444.67, s 1277.67, cv 1.15 Tanto la desviación estándar como el coeficiente de variación ponen en evidencia que la dispersión es muy grande, la 5 desviación estándar es 1.15 veces la media. Existen salarios muy bajos y salarios muy altos. Algunos índices EDA Los índices EDA se clasifican en: 1. Localización: corresponderían a los índices de posición y tendencia central clásicos, indicando los valores límites y promedios de la distribución. 2. Dispersión: indican el grado de agrupación o disgregación en la distribución. Cuanto menor sea su valor, mas información aportaran los índices de localización. 3. Forma: evalúan la forma de la distribución de los datos desde ejes verticales (simetría) y desde ejes horizontales (curtosis). 4. Gráficos: mostraran las agrupaciones internas de los valores e indicarán los índices que mejor representan a la distribución. Indices de localización Las medidas vistas en estadística descriptiva, son sensibles a los valores extremos, así por ejemplo: si eliminamos el último salario, 4592, se tiene: x 961.64, s 2 758951.17, s 871.18, cv 1.01 6 Debido a la prioridad que concede el enfoque EDA a la resistencia4 y a la robustez, sus índices se basan en los percentiles. Definición. Sea 0,1 , un percentil de orden es un número real C tal que, aproximadamente, 100 % de valores xi son inferiores a C y 100(1- )% aproximada-mente, son superiores a dicho valor, mas precisamente: Pˆn ( X C ) y Pˆn ( X C ) 1 o lo que es equivalente Pˆn ( X C ) y Fˆn (C ) El percentil divide al conjunto de datos en dos subconjuntos: uno de peso aproximado , a la izquierda de C , y otro de peso aproximado (1- ), a la derecha de C . Para su cálculo se procede como sigue: 1. Se ordenan los valores xi de menor a mayor. Escribiremos x(1) , x( 2) ,, x( n) los valores ordenados. 2. Se encuentra el entero menor ( n ) del producto n , y el entero mayor ( n ) 4 Un índice o un estadístico es resistente si no es sensible a valores extremos, se pueden cambiar los valores mas bajos y los mas altos y el índice no cambia o cambia muy poco. Por ejemplo la media no es resistente, los índices EDA que estudiaremos son resistentes. Un índice es robusto si es poco sensible a cambios en la distribución que genera los datos. 7 3. C 1 x( n ) x( n 1) 2 Observación. Si n no es entero, entonces n n 1 y C xn . Percentiles particulares El percentil de orden 0.5 se denomina mediana (Md). Los percentiles de órdenes: 0.25, 0.50, y 0.75 se denominan cuartiles: primer cuartil (Q1), segundo cuartil (Q2) y tercer cuartil (Q3) respectivamente. Observe que Q2 Md . Los percentiles de órdenes: 0.2, 0.4, 0.6, 0.8 se denominan quintiles. Los percentiles de órdenes: 0.1, 0.2, 0.3, ... , 0.9 se denominan deciles. Los índices EDA de localización son. Mediana De acuerdo a la regla dada para el calculo de percentiles x( k 1) si n 2k 1 Md 1 2 x( k ) x( k 1) si n 2k Promedio de cuartiles Q 1 Q1 Q3 2 8 Trimedia TRI 1 Md Q Q1 2Q2 Q3 2 4 Centrimedia o media intercuartílica (MID) Es el promedio de los valores xi, no repetidos, que se encuentran entre los cuartiles Q1, Q3. Se debe procurar que el número de valores a cada lado de la mediana sea el mismo. Se puede introducir observaciones repetidas para equilibrar los dos costados. Observaciones 1. Si el conjunto de datos {xi | i 1,2,3,, n} es centrado Md Q TRI MID cualquier diferencia entre estos índices refleja asimetría. 2. Los cuatro índices EDA que hemos visto dan cuenta del 50% central de valores, no dependen del 25% de valores inferiores al primer cuartil y del 25% de valores superiores al tercer cuartil, por tanto son resistentes. Ejemplo. Indices EDA para los salarios Indice Q1 Q2 = Md Valor 183 652 Q3 TRI MID Q 2198 1190.5 921.25 679.28 9 Indices de dispersión Amplitud intercuartiles IQR Q3 Q1 Mediana de desviaciones absolutas MAD Md xi Md | i 1,2,3,, n Indices estandarizados Con el fin de comparar con la ley normal centrada y reducida se estandarizan los dos índices anteriores. Sus estandarizaciones se denominan seudo desviaciones estándar. Los cuartiles de la ley normal centrada y reducida son: Q1 z0.75 0.6745, Q2 z0.5 0, Q3 z0.25 0.6745 su amplitud intercuartil es Q3 Q2 1.349. Las seudo desviaciones estándar son: Sd ( IQR) IQR 1.349 Sd ( MAD) MAD 0.6745 Ejemplo. Indices de dispersión y seudo desviaciones estándar para los salarios. 10 Indice IQR MAD Sd(IQR) Sd(MAD) Valor 2015 489 1493.69 724.98 La amplitud intercuartil del lote de salarios es 1494 veces la amplitud intercuartil de la ley normal centrada y reducida. La mediana de desviaciones absolutas de los salarios es 725 veces superior a la correspondiente de la ley normal centrada y reducida. Indices de forma Los índices de forma constituyen el principal aporte del EDA5 5 En la estadística clásica y en particular en la estadística descriptiva también hay medidas de forma. Lo que sucede es que el EDA enfatiza su importancia, mientras que en estadística clásica su uso (popular) es poco frecuente. Los índices clásicos de forma son: n n(n 1) 3(n 1) 2 xi x Curtosis (n 1)(n 2)(n 3) i 1 s (n 2)(n 3) 4 Una curtosis positiva indica que la distribución de la muestra es alargada con respecto a la distribución de la ley normal (0,1). Una curtosis negativa indica que la distribución de la muestra es plana con respecto a la distribución ley normal (0,1). n xi x Asimetría (n 1)( n 2) s 3 Un coeficiente de asimetría positivo indica que la distribución de la muestra está cargada (alargada) hacia los valores superiores a la media. Un coeficiente de asimetría negativo indica que la distribución de la muestra está cargada (alargada) hacia los valores inferiores a la media. 11 Indice de Yule H1 Q1 2Q2 Q3 2Q2 Si H1 = 0, la distribución es simétrica. Si H1 > 0, la asimetría es positiva. La distribución es alargada hacia los valores superiores a la mediana. Si H1 < 0, la simetría es negativa. La distribución es alargada hacia los valores inferiores a la mediana. Indices de simetría de Kelly H 2 Q2 C0.1 C0.9 H2 , H3 2 Q2 La ventaja de H3 sobre H2 es su adimensionalidad. Se interpreta de forma idéntica al índice de Yule. Coeficiente de curtosis K2 C0.9 C0.1 1.9(Q3 Q1 ) o bien empleando octiles K1 C0.875 C0.125 1.9(Q3 Q1 ) Si K1 o K2 = 1, la distribución es mesocúrtica. Si K1 o K2 > 1, la distribución es leptocúrtica (alargada). Si K1 o K2 < 1, la distribución es platicúrtica (plana). 12 Ejemplo. Indices de simetría y curtosis para los salarios. Indice H1 H3 K1 K2 Valor 0.82 0.91 0.61 0.61 Por el tamaño de la muestra: los deciles (extremos) coinciden con los octiles. La distribución tiene una marcada asimetría positiva y es platicúrtica. Gráficos EDA Diagrama de puntos 0 1000 2000 3000 4000 5000 En el gráfico anterior se muestran los salarios repartidos en una recta numérica, este gráfico se denomina diagrama de puntos. Es muy útil para visualizar un conjunto pequeño de datos. El gráfico muestra la concentración y la dispersión de los mismos. En el caso del ejemplo los salarios se concentran hacia los valores bajos, existe un salario muy alto con respecto al resto. Diagrama tronco y hojas Es un diagrama que puede sustituir al histograma. La principal crítica a los histogramas es que los datos se dividen en rangos cuyos extremos pueden no ser representativos de la 13 distribución interna de los datos o no reflejar sus posibles subagrupaciones. El enfoque EDA propone la utilización de representaciones gráficas que potencien la “visualización” de la información, no solo en lo cualitativo sino en lo cuantitativo, conservando en lo posible los propios valores numéricos. Los números xi se dividen en dos partes: un tronco formado por el primer dígito o por los dos primeros dígitos, y una hoja por el siguiente dígito. Se desprecian el resto de dígitos. La parte que define el grupo (el rango en el histograma) es el tronco, éstos se colocan en una columna ordenada a intervalos constantes, desde el valor mas bajo hasta el valor mas alto. Se hallen presentes o no los valores intermedios. Ejemplo Para realizar el diagrama tronco y hojas para los salarios, podemos separar los dos primeros salarios, por ser muy pequeños, y suponer que todos los números restantes están formados por cuatro dígitos, a los números de tres dígitos les anteponemos el cero. Si tomamos el primer dígito como tronco y el siguiente como hoja se tiene el gráfico adjunto. Lo: 53, 86 Fre. Tronco Hojas (9) 0 11222 68 6 1 14 4 2 124 1 3 1 4 5 Unidad = 1000; 1|1 = 1100 – 1199 14 Los dos salarios mas bajos constan en la parte superior acompañados de la palabra “Lo = lower”. En la última fila hemos añadido la unidad, ésta nos indica que son unidades de 1000 y, que si el trono es 1 y la hoja es 1 (1|1) significa que el salario puede ir desde 1100 hasta 1199. La primera columna es la frecuencia absoluta acumulada. Las frecuencias se acumulan tanto desde arriba hacia abajo como desde abajo hacia arriba, se encuentran en la clase que contiene la mediana, la misma que se escribe entre paréntesis. Como se puede ver este gráfico es mucho mas informativo que el histograma y sus clases son menos arbitrarias, prácticamente están determinadas por los valores observados. No obstante el número de clases también puede variar de acuerdo a los mismos criterios de construcción de los histogramas. En el diagrama del ejemplo se puede ver: la concentración de salarios bajos, al igual que la existencia de un salario muy alto. Además, algo que no se ve en un histograma: hay 2 salarios entre 100 y 199, 3 salarios entre 200 y 299, 1 salario entre 600 y 699, etc.. Hay nueve salarios inferiores a 1000, 2 salarios entre 1100 y 1499, 3 salarios ente 2100 y 2499 , 0 salarios entre 3000 y 3999, 1 salario entre 4500 y 4599. Si el diagrama anterior no nos satisface, porque concentra mucho los datos, se pueden subdividir los troncos. El tronco 1 se subdividir en dos: 1L para las hojas 0,1,2,3,4 y 1U para las hojas 5,6,7,8,9. como se muestra en el siguiente diagrama. 15 Lo: 53, 86 Frec. Tronco Hoja 7 0L 1 1 2 2 2 (2) 0U 6 8 6 1L 1 4 4 1U 4 2L 1 2 4 1 2U 1 3L 1 3U 1 4L 1 4U 5 Unidad = 1000; 1U|1 = 1100 - 1199 Si se quiere desagregar mucho mas cada tallo (original) se subdivide en 5 partes. 1z, 1t, 1f, 1s y 1e para las hojas, {0,1}, {2,3}, {4,5},{6,7},{8,9}, respectivamente. El nuevo diagrama se presenta en la página siguiente. En él se incluye una fila para la observación masa alta y que ahora se visualiza muy alejada del resto. Diagrama de caja Es una presentación visual que describe al mismo tiempo varias características importantes de un conjunto de datos, tales como: el centro, la dispersión, la asimetría y la identificación de observaciones que se alejan de forma poco usual del resto de datos. El diagrama de caja se basa en los cuartiles y en los valores extremos (xmin y xmax). Su presentación puede ser vertical u horizontal. Se colocan a escala los cuartiles Q1, Q2, Q3. Se realizan pequeños trazos que indican su posición y se forma una caja con ellos, así (Ver gráfico en la página siguiente.) 16 Lo: 53, 86 Frec Tronco Hoja 4 0z 1 1 7 0t 2 2 2 7 0f (1) 0s 6 7 0e 8 6 1z 1 5 1t 5 1f 4 4 1s 4 1e 4 2z 1 3 2t 2 2 2f 4 1 2s 1 2e Hi : 4592 Unidad = 1000; 1z|1 = 1100 - 1199 Diagrama tronco – hoja xmin Q1 Md * xmax Q3 Diagrama de caja A derecha e izquierda se trazan rayas cuya longitud máxima es 1.5IQR, a condición de que dicha longitud no exceda la posición de los valores extremos. Las observaciones cuyos valores superan estos límites se marcan individualmente, mediante cualquier símbolo que represente a los puntos. Las observaciones que se encuentran entre 1.5IQR y 3IQR (a cualquiera de los lados) se denominan observaciones atípicas, 17 las que superan ese rango son observaciones atípicas extremas. En el diagrama de caja anterior hay una observación atípica y ninguna observación atípica extrema. Los diagramas de caja son especialmente útiles cuando se quiere comparar varias muestras. Parejas de variables Introducción Supongamos que se observa una pareja de variables (X,Y). X e Y son dos medidas que se observan sobre un mismo individuo. Por ejemplo: 1. X es la calificación de álgebra, Y es la calificación de Educación Física de un estudiante. 2. X es la potencia de un vehículo, Y es su velocidad máxima. 3. X es el ingreso de un hogar, Y es su gasto en consumo. 4. X es la masa monetaria mensual, Y es la tasa de inflación mensual de un mismo país. Supongamos que se dispone de una muestra {(x1,y1), (x2,y2),..., (xn,yn)}. El estudio de la pareja (X,Y) a partir de la muestra se lo puede realizar desde diferentes ángulos: Distribución de probabilidad conjunta. Descripción de los individuos a partir de los valores (xi,yi) Búsqueda de una relación funcional entre las variables. 18 Distribuciones de probabilidad asociadas Distribución conjunta Se divide en rangos, de acuerdo a los criterios antes indicados, tanto los valores {x1, x2, ...,xn} como los valores {y1, y2, ...,yn}. Sean R1X , R2X ,, RKX y R1Y , R2Y ,, RKY los rangos, nij el número de observaciones ( xk , yk ) RiX RYj . nij es la frecuencia absoluta de la clase cruzada RiX RYj . La frecuencia relativa se define por f ij nij n y se interpreta como una probabilidad: f ij Pˆ ( X RiX , Y R Yj ) El conjunto de todas estas frecuencias se denomina distribución conjunta de {X,Y}. Estas frecuencias pueden ser visualizadas en un histograma tridimensional, pero su representación suele ser poco útil. Distribuciones marginales Se puede calcular la distribución de cada una de las variables, éstas se denominan distribuciones marginales. La distribución marginal de X es K f i . f ij Pˆ ( X RiX ) i 1,2,, K j 1 La distribución marginal de Y se define de manera similar. 19 K f . j f ij Pˆ (Y R Yj ) j 1,2,, K i 1 Distribuciones condicionales También se puede calcular la distribución de X cundo Y toma un valor particular, lo que se denomina probabilidad condicional de X dado Y. La probabilidad condicional de X RiX dado Y R Yj se define por Pˆ ( X RiX | Y R Yj ) Es la probabilidad de f ij f .j X RiX i 1,2,, K sabiendo que Y R Yj . Igualmente se define la probabilidad condicional de Y R Yj dado X RiX Pˆ (Y R Yj | X RiX ) f ij fi . j 1,2,, K Para comparar las distribuciones condicionales se puede trazar en un solo gráfico sus histogramas. También se pueden calcular los diferentes índices antes estudiados a mas de sus diagramas de caja. Descripción de los individuos Para describir los individuos se puede recurrir a un gráfico de los puntos (xi,yi) en un plano cartesiano. Es de particular 20 interés cuando los puntos forman grupos o una estructura particular, como en las siguientes figuras. Y Gráfico 2 60 40 20 0 0 5 10 15 X Gráfico 3 80,00 60,00 40,00 20,00 0,00 0 5 10 15 En el gráfico 1 hay 4 grupos mas o menos definidos. Para concretar las ideas supongamos que X es la calificación de álgebra y Y es la calificación en deportes. Leyendo en le sentido de las manecillas de un reloj: encontramos un grupo que tiene calificaciones alteas en las dos materias, el siguiente grupo tiene calificaciones satisfactorias en álgebra pero deficientes en deportes, el tercer grupo tiene calificaciones bajas en ambas materias, el grupo último tiene calificaciones bajas en álgebra paro satisfactorias en deportes. El gráfico 2 muestra claramente una tendencia lineal sugiere que existe una relación lineal entre las variables Y a bX . 21 En el gráfico 3 es difícil visualizar grupos o una relación de tipo funcional. No se puede decir mucho sobre la relación entre las variables o las características de los individuos. Búsqueda de una relación funcional El método clásico se basa en la regresión lineal o mas generalmente en los modelos lineales generalizados. Aquí presentaremos un método alternativo, pero antes estudiaremos el coeficiente de correlación. Coeficiente de correlación Si las variables que se observan son cuantitativas, es decir si los valores observados (xi,yi) son valores numé-ricos se puede calcular la covarianza que se define por: s( X , Y ) 1 n ( xi x )( yi y ) n 1 i 11 1 n n xi y i xy n 1 i 1 n 1 y la correlación que se define por: r( X ,Y ) s( X , Y ) s( X , X ) s(Y , Y ) ( x x )( y y ) ( x x ) ( y y) i i 2 i 2 i La ventaja de la correlación sobre la covarianza es su adimensionalidad, a mas de los siguientes resultados: 22 Teorema. Para todo conjunto de observaciones numéricas {(x1,y1), (x2,y2),..., (xn,yn)} se tiene que: r( X , Y ) 1 Teorema. Para todo conjunto de observaciones numéricas {(x1,y1), (x2,y2),..., (xn,yn)}. r ( X , Y ) 1 si y solo si existen constantes a, b, b 0 tales que i yi a bxi , b signo(r ( X , Y )) Teorema. Si las variables X, Y son independientes, su correlación es nula. Los teoremas anteriores permiten interpretar y comprender el coeficiente de correlación. Un coeficiente de correlación cercano a uno, en valor absoluto, sugiere la existencia de una relación lineal entre las observaciones. Una correlación cercana a cero puede ser causada por la independencia de las variables aleatorias o por una relación no lineal entre las observaciones, por ejemplo una relación cuadrática. Consideremos el conjunto (-2,4), (-1,1), (0,0), (1,1), (2,4). Es claro que su correlación es nula, en efecto: x i i 0, xy i i i 0 lo que implica r ( X , Y ) 0 . No obstante la relación entre X e Y es cuadrática, como se aprecia en el siguiente gráfico. 23 5 4 3 2 1 0 -4 -2 0 2 4 Recta de regresión de mínimos cuadrados La ecuación de la recta que pasa por los puntos (x1,y1), (x2,y2) es y y1 b( x x1 ) , donde b es la pendiente, y está dada por: y y1 b 2 x2 x1 Observe que si x = x1, entonces y = y1; y si x = x2, y = y2. Si tenemos n puntos para cada pareja podemos obtener una recta, así tendríamos n(n-1)/2 rectas. El problema es: encontrar una recta que de alguna manera sea la mas próxima a todos los puntos. El método de mínimos cuadrados propone encontrar una recta y = a + bx que minimice la suma de residuos al cuadrado n (y i 1 i a bxi ) 2 Los estimadores de mínimos cuadrados son6: 6 Para la demostración puede consultar cualquier manual de regresión lineal simple, por ejemplo: Montomery, pag. 476. 24 ˆ ( x x )( y y) , (x x) i ˆ y ˆx i 2 i La ecuación de la recta es: y y ˆ ( x x ) . La recta pasa por el punto ( x , y ) y tiene pendiente ˆ . El problema es que la recta puede estar determinada por pocos puntos y no reflejar la verdadera relación entre la mayoría de puntos. Ejemplo. Suponga que se han realizado 10 observaciones de una pareja (X; Y). x y 9 18 3 4 7 15 8 20 4 11 2 8 Nube de puntos 9 15 2 5 5 13 10 60 Nube. 9 primeros puntos 80 30 60 y = 1,745x + 2,6107 20 y = 3,6737x - 4,775 40 10 20 0 0 0 5 10 15 0 2 4 6 8 10 En el primer gráfico se muestra la nube de los 10 puntos con la recta de mínimos cuadrados y la ecuación de la recta: y = 4.8 + 3.7x. Es evidente que hay un punto alejado del resto y es muy influyente. En el segundo gráfico se ha eliminado el último punto. La ecuación de la nueva recta es: y = 2.6 + 1.7x que es muy distinta a la anterior. 25 Línea resistente o línea de Tukey La línea resistente está ligada a un estadístico resistente, la mediana. Cálculo de los coeficientes a, b 1. Se divide a X en tercios, de acuerdo a los siguientes criterios: Tercios Si n = 3K Si n = 3K+1 Si n = 3K+2 Inferior K K K+1 Medio K K+1 K Superior K K K+1 S varios puntos tienen el mismo valor, se asignan al mismo tercio, buscando siempre el equilibrio. 2. En cada tercio se calcula la mediana de los {x i} y la mediana de los {yi}. Sean: (xinf, yinf), (xmed, ymed), (xsup,ysup) las parejas de medianas de cada tercio. 3. La pendiente de la recta resistente es: ysup yinf bˆ xsup xinf la intersección con el eje Y es: aˆ ainf 1 ainf amed asup 3 yinf bˆxind , amed y med bˆxmed , asup ysup bˆxsup 26 Ejemplo. Línea resistente para los datos del ejemplo anterior. Tercio inferior X 2 2 3 Y 8 5 4 Medianas (2, 5) Tercio medio 4 5 7 8 11 13 15 20 (6, 14) Tercio superior 9 9 10 18 15 60 (9, 18) 18 5 bˆ 1.857 92 1 aˆ 1.286 2.857 1.286 1.810 3 la ecuación de la línea resistente es: y = 1.810 + 1.857x. Si se elimina el punto décimo la ecuación de la recta resistente no cambia. Análisis de los residuos El análisis de residuos es similar al de mínimos cuadrados, tienen un carácter confirmatorio, pero no sirve para validar hipótesis, en realidad la línea resistente no presupone nada sobre los errores. Para nuestro ejemplo, el gráfico pone en evidencia la existencia de un punto lejano. Residuos de la recta resistente Residuos 60 40 20 0 -20 0 2 4 6 X 27 8 10 Indice exploratorio de ajuste DQR(residuos) DQR(Y ) DQR(residuales) es la distancia intercuartiles de los residuos, DQR(Y) es la distancia intercuartiles de Y. Este índice fluctúa entre 0 y 1. Si 0 , se puede pensar que el ajuste es adecuado. Si 1 , el ajuste es incorrecto. Aquí no se puede pensar en la significación estadística de este valor, se trata de obtener un descriptor del concepto abstracto de “ajuste”. Para nuestro ejemplo 0.3 lo que significa que el ajuste es aceptable. Bibliografía 1. Dacunha–Castelle y Duflo (1982), Probabilités et Statistiques, tomo1, Masson, París. 2. Freixa y otros (1992), Análisis Exploratorio de Datos: Nuevas Técnicas Estadísticas, PPU Barcelona. 3. Montgomery y Runger (1996), Probabilidad y Estadística Aplicadas a la Ingeniería, McGraw-Hill. 28