Introducción

Anuncio
Introducción
“Exploratory data analysis is detective work – numerical
detective work- or counting detective work – or graphical
detective work”
Tukey, 1977 (pág 1)
El análisis exploratorio de datos (EDA), según unos, nueva
rama de la estadística, según otros, una extensión de la
estadística descriptiva, propugna un cambio de actitud y de
enfoque metodológico ante el análisis de datos.
El EDA propugna que previo a cualquier análisis estadístico, es
necesario un examen cualitativo de los datos, hay que
comprender y reflexionar sobre la información que ellos
contienen.
La estadística descriptiva clásica se ocupa de describir los
datos a través de gráficos y de algunas medidas de tendencia
central y de dispersión. El EDA tiene los mismos objetivos
pero además pretende detectar anomalías o errores en las
distribuciones univariantes de los datos. También intenta
descubrir patrones o modelos. Para ello incorpora nuevas
técnicas gráficas y busca estadísticos resistentes y robustos
basados en las estadísticas de orden y centrados en la mediana.
El EDA potencializa los índices de forma, y la utilización de
gráficos, prácticamente, como un índice más, una gráfica bien
realizada puede ser mas informativa que un conjunto de
números.
1
Estadística descriptiva
Frecuencias e histogramas
Supongamos que se tiene un conjunto de n observaciones
xi | i  1,2,3,, n, denominado muestra, de una variable
aleatoria X o de una población . Uno de los problemas es
conocer la distribución de la muestra. Con este fin se divide a
la muestra en rangos o clases continuas de igual longitud, sean
r1 , r2 ,, rk los rangos.
Frecuencia relativa
La frecuencia relativa de la clase rj es:
fj 
card{xi | xi  r j }
n

ni
n
Si la muestra es aleatoria y n es suficientemente grande, se
puede hacer la siguiente aproximación1
f j  Pˆn ( X  r j )  P( X  r j )
P̂n es la probabilidad empírica (suma de frecuencias), mientras
que P es la probabilidad teórica.
Histograma
El gráfico de las frecuencias relativas; en ordenadas los valores
fj y en abscisas las clases rj, se denomina histograma. Es claro
1
Ley débil de los grandes números: Dacunha-Castelle, p. 33 y 102
2
que la forma del histograma depende del número de clases, no
deben ser muchas ni muy pocas. No existe una regla que
determine el número de clases, en general deben ser alrededor
de n y no menos de 52.
Función de distribución (empírica)
También se define la función de distribución acumulada
1 si xi  x
1 n
Fˆn ( x)   I ( xi  x) donde I ( xi  x)  
n i 1
0 si xi  x
Uno de los pilares de la estadística clásica es la convergencia
de la distribución empírica hacia la distribución teórica.
Teorema de Glivenko – Cantelli3
sup Fˆn ( x)  F ( x)  0
x
n
F ( x)  P( X  x)
Ejemplo
Suponga que se ha seleccionado una muestra aleatoria simple
de 15 personas y se les ha preguntado su salario mensual en
dólares. Los salarios, previamente ordenados, son:
53, 86, 163, 183, 206, 224, 259, 652, 842,
1139, 1433, 2198, 2215, 2410, 4592
Como 15  3.87 dividiremos la muestra en 5 clases.
2
3
Para una mayor discusión sobre el tema ver: Freixa, pag. 42.
Dacunha- Castelle pag. 104
3
Clase
ni
fj
Menos de 620
De 620 a 1755
De 1755 a 2889
De 2889 a 4024
Más de 4024
7
4
3
0
1
0.47
0.27
0.20
0
0.07
Fˆn ( x j )
0.47
0.73
0.93
0.93
1.00
Histograma




El histograma pone en evidencia una distribución completamente asimétrica. El 47% tienen salarios inferiores a $620,
mientras que el 7% tienen salarios superiores a 4024.
Medidas de tendencia central y de dispersión
Media
Es el índice clásico de tendencia central. Se define por:
x
1 n
 xi
n i 1
Moda
Es el valor o los valores mas frecuentes.
Su uso es restringido porque pueden existir varias modas o su
frecuencia puede ser irrelevante con respecto a la frecuencia de
los otros datos, en especial cuando los datos son de tipo
continuo. Si en el ejemplo anterior, calculamos la frecuencia de
cada uno de los salarios, vemos que todos tiene la misma
frecuencia, no existe una moda, pero si consideramos los 5
rangos de salarios, existe uno que es claramente modal, el
primero.
4
Varianza
Es una medida de dispersión, en promedio, mide como se
alejan los datos de la media. Su definición es:
s2 
1 n
 ( xi  x ) 2
n  1 i 1
Desviación estándar
El problema de la varianza es que sus unidades están elevadas
al cuadrado, por ejemplo si calculamos la varianza de los
salarios tendríamos dólares al cuadrado, lo que no tiene mucho
sentido. Por esta razón, se acostumbra calcular la raíz
cuadrada de la varianza, lo que se denomina desviación
estándar.
s  s2
Coeficiente de variación
Es una medida adimensional de la dispersión. Es la dispersión
con respecto a la media, su fórmula es:
cv  s
x
Ejemplo. Para los 15 salarios se tiene:
x  1110.33, s 2  1632444.67, s  1277.67, cv  1.15
Tanto la desviación estándar como el coeficiente de variación
ponen en evidencia que la dispersión es muy grande, la
5
desviación estándar es 1.15 veces la media. Existen salarios
muy bajos y salarios muy altos.
Algunos índices EDA
Los índices EDA se clasifican en:
1. Localización: corresponderían a los índices de posición
y tendencia central clásicos, indicando los valores
límites y promedios de la distribución.
2. Dispersión: indican el grado de agrupación o
disgregación en la distribución. Cuanto menor sea su
valor, mas información aportaran los índices de
localización.
3. Forma: evalúan la forma de la distribución de los datos
desde ejes verticales (simetría) y desde ejes horizontales (curtosis).
4. Gráficos: mostraran las agrupaciones internas de los
valores e indicarán los índices que mejor representan a
la distribución.
Indices de localización
Las medidas vistas en estadística descriptiva, son sensibles a
los valores extremos, así por ejemplo: si eliminamos el último
salario, 4592, se tiene:
x  961.64, s 2  758951.17, s  871.18, cv  1.01
6
Debido a la prioridad que concede el enfoque EDA a la
resistencia4 y a la robustez, sus índices se basan en los
percentiles.
Definición. Sea   0,1 , un percentil de orden  es un
número real C tal que, aproximadamente, 100  % de valores
xi son inferiores a C y 100(1-  )% aproximada-mente, son
superiores a dicho valor, mas precisamente:
Pˆn ( X  C )  
y Pˆn ( X  C )  1  
o lo que es equivalente
Pˆn ( X  C )  
y Fˆn (C )  
El percentil divide al conjunto de datos en dos subconjuntos:
uno de peso aproximado  , a la izquierda de C , y otro de
peso aproximado (1-  ), a la derecha de C . Para su cálculo se
procede como sigue:
1. Se ordenan los valores xi de menor a mayor. Escribiremos
x(1) , x( 2) ,, x( n) los valores ordenados.
2. Se encuentra el entero menor ( n  ) del producto n , y
el entero mayor ( n  )
4
Un índice o un estadístico es resistente si no es sensible a valores
extremos, se pueden cambiar los valores mas bajos y los mas altos y el
índice no cambia o cambia muy poco. Por ejemplo la media no es resistente,
los índices EDA que estudiaremos son resistentes.
Un índice es robusto si es poco sensible a cambios en la distribución que
genera los datos.
7
3.
C 

1
x( n )  x( n 1)
2  

Observación. Si n no es entero, entonces n   n   1 y
C  xn  .
Percentiles particulares


El percentil de orden 0.5 se denomina mediana (Md).
Los percentiles de órdenes: 0.25, 0.50, y 0.75 se denominan
cuartiles: primer cuartil (Q1), segundo cuartil (Q2) y tercer
cuartil (Q3) respectivamente. Observe que Q2  Md .
 Los percentiles de órdenes: 0.2, 0.4, 0.6, 0.8 se denominan
quintiles.
 Los percentiles de órdenes: 0.1, 0.2, 0.3, ... , 0.9 se
denominan deciles.
Los índices EDA de localización son.
Mediana
De acuerdo a la regla dada para el calculo de percentiles
x( k 1)
si n  2k  1


Md   1
 2 x( k )  x( k 1)  si n  2k
Promedio de cuartiles
Q 
1
Q1  Q3 
2
8
Trimedia
TRI 
1
Md  Q   Q1  2Q2  Q3
2
4
Centrimedia o media intercuartílica (MID)
Es el promedio de los valores xi, no repetidos, que se
encuentran entre los cuartiles Q1, Q3. Se debe procurar que el
número de valores a cada lado de la mediana sea el mismo. Se
puede introducir observaciones repetidas para equilibrar los
dos costados.
Observaciones
1. Si el conjunto de datos {xi | i  1,2,3,, n} es centrado
Md  Q  TRI  MID
cualquier diferencia entre estos índices refleja asimetría.
2. Los cuatro índices EDA que hemos visto dan cuenta del
50% central de valores, no dependen del 25% de valores
inferiores al primer cuartil y del 25% de valores superiores
al tercer cuartil, por tanto son resistentes.
Ejemplo. Indices EDA para los salarios
Indice Q1 Q2 = Md
Valor 183
652
Q3
TRI
MID
Q
2198 1190.5 921.25 679.28
9
Indices de dispersión
Amplitud intercuartiles
IQR  Q3  Q1
Mediana de desviaciones absolutas
MAD  Md xi  Md | i  1,2,3,, n
Indices estandarizados
Con el fin de comparar con la ley normal centrada y reducida
se estandarizan los dos índices anteriores. Sus estandarizaciones se denominan seudo desviaciones estándar.
Los cuartiles de la ley normal centrada y reducida son:
Q1  z0.75  0.6745, Q2  z0.5  0, Q3  z0.25  0.6745
su amplitud intercuartil es Q3  Q2  1.349.
Las seudo desviaciones estándar son:
Sd ( IQR) 
IQR
1.349
Sd ( MAD) 
MAD
0.6745
Ejemplo. Indices de dispersión y seudo desviaciones estándar
para los salarios.
10
Indice IQR MAD Sd(IQR) Sd(MAD)
Valor 2015 489 1493.69 724.98
La amplitud intercuartil del lote de salarios es 1494 veces la
amplitud intercuartil de la ley normal centrada y reducida. La
mediana de desviaciones absolutas de los salarios es 725 veces
superior a la correspondiente de la ley normal centrada y
reducida.
Indices de forma
Los índices de forma constituyen el principal aporte del EDA5
5
En la estadística clásica y en particular en la estadística descriptiva
también hay medidas de forma. Lo que sucede es que el EDA enfatiza su
importancia, mientras que en estadística clásica su uso (popular) es poco
frecuente.
Los índices clásicos de forma son:
n
n(n  1)
3(n  1) 2
 xi  x 
Curtosis 




(n  1)(n  2)(n  3) i 1  s  (n  2)(n  3)
4
Una curtosis positiva indica que la distribución de la muestra es alargada
con respecto a la distribución de la ley normal (0,1). Una curtosis negativa
indica que la distribución de la muestra es plana con respecto a la
distribución ley normal (0,1).
n
 xi  x 
Asimetría 



(n  1)( n  2)  s 
3
Un coeficiente de asimetría positivo indica que la distribución de la muestra
está cargada (alargada) hacia los valores superiores a la media. Un
coeficiente de asimetría negativo indica que la distribución de la muestra
está cargada (alargada) hacia los valores inferiores a la media.
11
Indice de Yule
H1 
Q1  2Q2  Q3
2Q2


Si H1 = 0, la distribución es simétrica.
Si H1 > 0, la asimetría es positiva. La distribución es
alargada hacia los valores superiores a la mediana.
 Si H1 < 0, la simetría es negativa. La distribución es
alargada hacia los valores inferiores a la mediana.
Indices de simetría de Kelly
H 2  Q2 
C0.1  C0.9
 H2
, H3 
2
Q2
La ventaja de H3 sobre H2 es su adimensionalidad. Se
interpreta de forma idéntica al índice de Yule.
Coeficiente de curtosis
K2 
C0.9  C0.1
1.9(Q3  Q1 )
o bien empleando octiles
K1 



C0.875  C0.125
1.9(Q3  Q1 )
Si K1 o K2 = 1, la distribución es mesocúrtica.
Si K1 o K2 > 1, la distribución es leptocúrtica (alargada).
Si K1 o K2 < 1, la distribución es platicúrtica (plana).
12
Ejemplo. Indices de simetría y curtosis para los salarios.
Indice H1 H3 K1 K2
Valor 0.82 0.91 0.61 0.61
Por el tamaño de la muestra: los deciles (extremos) coinciden
con los octiles. La distribución tiene una marcada asimetría
positiva y es platicúrtica.
Gráficos EDA
Diagrama de puntos
0
1000
2000
3000
4000
5000
En el gráfico anterior se muestran los salarios repartidos en una
recta numérica, este gráfico se denomina diagrama de puntos.
Es muy útil para visualizar un conjunto pequeño de datos.
El gráfico muestra la concentración y la dispersión de los
mismos. En el caso del ejemplo los salarios se concentran hacia
los valores bajos, existe un salario muy alto con respecto al
resto.
Diagrama tronco y hojas
Es un diagrama que puede sustituir al histograma. La principal
crítica a los histogramas es que los datos se dividen en rangos
cuyos extremos pueden no ser representativos de la
13
distribución interna de los datos o no reflejar sus posibles subagrupaciones.
El enfoque EDA propone la utilización de representaciones
gráficas que potencien la “visualización” de la información, no
solo en lo cualitativo sino en lo cuantitativo, conservando en lo
posible los propios valores numéricos.
Los números xi se dividen en dos partes: un tronco formado por
el primer dígito o por los dos primeros dígitos, y una hoja por
el siguiente dígito. Se desprecian el resto de dígitos.
La parte que define el grupo (el rango en el histograma) es el
tronco, éstos se colocan en una columna ordenada a intervalos
constantes, desde el valor mas bajo hasta el valor mas alto. Se
hallen presentes o no los valores intermedios.
Ejemplo
Para realizar el diagrama tronco y hojas para los salarios,
podemos separar los dos primeros salarios, por ser muy
pequeños, y suponer que todos los números restantes están
formados por cuatro dígitos, a los números de tres dígitos les
anteponemos el cero. Si tomamos el primer dígito como tronco
y el siguiente como hoja se tiene el gráfico adjunto.
Lo: 53, 86
Fre. Tronco
Hojas
(9)
0 11222 68
6
1 14
4
2 124
1
3
1
4 5
Unidad = 1000; 1|1 = 1100 – 1199
14

Los dos salarios mas bajos constan en la parte superior
acompañados de la palabra “Lo = lower”.

En la última fila hemos añadido la unidad, ésta nos indica
que son unidades de 1000 y, que si el trono es 1 y la hoja es
1 (1|1) significa que el salario puede ir desde 1100 hasta
1199.

La primera columna es la frecuencia absoluta acumulada.
Las frecuencias se acumulan tanto desde arriba hacia abajo
como desde abajo hacia arriba, se encuentran en la clase
que contiene la mediana, la misma que se escribe entre
paréntesis.
Como se puede ver este gráfico es mucho mas informativo que
el histograma y sus clases son menos arbitrarias, prácticamente
están determinadas por los valores observados. No obstante el
número de clases también puede variar de acuerdo a los
mismos criterios de construcción de los histogramas.
En el diagrama del ejemplo se puede ver: la concentración de
salarios bajos, al igual que la existencia de un salario muy alto.
Además, algo que no se ve en un histograma: hay 2 salarios
entre 100 y 199, 3 salarios entre 200 y 299, 1 salario entre 600
y 699, etc.. Hay nueve salarios inferiores a 1000, 2 salarios
entre 1100 y 1499, 3 salarios ente 2100 y 2499 , 0 salarios
entre 3000 y 3999, 1 salario entre 4500 y 4599.
Si el diagrama anterior no nos satisface, porque concentra
mucho los datos, se pueden subdividir los troncos. El tronco 1
se subdividir en dos: 1L para las hojas 0,1,2,3,4 y 1U para las
hojas 5,6,7,8,9. como se muestra en el siguiente diagrama.
15
Lo: 53, 86
Frec.
Tronco Hoja
7
0L 1 1 2 2 2
(2)
0U 6 8
6
1L 1 4
4
1U
4
2L 1 2 4
1
2U
1
3L
1
3U
1
4L
1
4U 5
Unidad = 1000; 1U|1 = 1100 - 1199
Si se quiere desagregar mucho mas cada tallo (original) se
subdivide en 5 partes. 1z, 1t, 1f, 1s y 1e para las hojas, {0,1},
{2,3}, {4,5},{6,7},{8,9}, respectivamente. El nuevo diagrama
se presenta en la página siguiente. En él se incluye una fila para
la observación masa alta y que ahora se visualiza muy alejada
del resto.
Diagrama de caja
Es una presentación visual que describe al mismo tiempo
varias características importantes de un conjunto de datos, tales
como: el centro, la dispersión, la asimetría y la identificación
de observaciones que se alejan de forma poco usual del resto
de datos.
El diagrama de caja se basa en los cuartiles y en los valores
extremos (xmin y xmax). Su presentación puede ser vertical u
horizontal. Se colocan a escala los cuartiles Q1, Q2, Q3. Se
realizan pequeños trazos que indican su posición y se forma
una caja con ellos, así (Ver gráfico en la página siguiente.)
16
Lo: 53, 86
Frec
Tronco
Hoja
4
0z 1 1
7
0t 2 2 2
7
0f
(1)
0s 6
7
0e 8
6
1z 1
5
1t
5
1f 4
4
1s
4
1e
4
2z 1
3
2t 2
2
2f 4
1
2s
1
2e
Hi : 4592
Unidad = 1000; 1z|1 = 1100 - 1199
Diagrama tronco – hoja
xmin
Q1 Md
*
xmax
Q3
Diagrama de caja
A derecha e izquierda se trazan rayas cuya longitud máxima es
1.5IQR, a condición de que dicha longitud no exceda la
posición de los valores extremos. Las observaciones cuyos
valores superan estos límites se marcan individualmente,
mediante cualquier símbolo que represente a los puntos. Las
observaciones que se encuentran entre 1.5IQR y 3IQR (a
cualquiera de los lados) se denominan observaciones atípicas,
17
las que superan ese rango son observaciones atípicas
extremas. En el diagrama de caja anterior hay una observación
atípica y ninguna observación atípica extrema.
Los diagramas de caja son especialmente útiles cuando se
quiere comparar varias muestras.
Parejas de variables
Introducción
Supongamos que se observa una pareja de variables (X,Y). X e
Y son dos medidas que se observan sobre un mismo individuo.
Por ejemplo:
1. X es la calificación de álgebra, Y es la calificación de
Educación Física de un estudiante.
2. X es la potencia de un vehículo, Y es su velocidad máxima.
3. X es el ingreso de un hogar, Y es su gasto en consumo.
4. X es la masa monetaria mensual, Y es la tasa de inflación
mensual de un mismo país.
Supongamos que se dispone de una muestra {(x1,y1), (x2,y2),...,
(xn,yn)}. El estudio de la pareja (X,Y) a partir de la muestra se
lo puede realizar desde diferentes ángulos:

Distribución de probabilidad conjunta.

Descripción de los individuos a partir de los valores (xi,yi)

Búsqueda de una relación funcional entre las variables.
18
Distribuciones de probabilidad asociadas
Distribución conjunta
Se divide en rangos, de acuerdo a los criterios antes indicados,
tanto los valores {x1, x2, ...,xn} como los valores {y1, y2, ...,yn}.
Sean R1X , R2X ,, RKX y R1Y , R2Y ,, RKY los rangos, nij el número
de observaciones ( xk , yk )  RiX  RYj . nij es la frecuencia
absoluta de la clase cruzada RiX  RYj . La frecuencia relativa se
define por f ij  nij n y se interpreta como una probabilidad:
f ij  Pˆ ( X  RiX , Y  R Yj )
El conjunto de todas estas frecuencias se denomina
distribución conjunta de {X,Y}. Estas frecuencias pueden ser
visualizadas en un histograma tridimensional, pero su
representación suele ser poco útil.
Distribuciones marginales
Se puede calcular la distribución de cada una de las variables,
éstas se denominan distribuciones marginales.
La distribución marginal de X es
K
f i .   f ij  Pˆ ( X  RiX ) i  1,2,, K
j 1
La distribución marginal de Y se define de manera similar.
19
K
f . j   f ij  Pˆ (Y  R Yj )
j  1,2,, K
i 1
Distribuciones condicionales
También se puede calcular la distribución de X cundo Y toma
un valor particular, lo que se denomina probabilidad
condicional de X dado Y.
La probabilidad condicional de X  RiX dado Y  R Yj se define
por
Pˆ ( X  RiX | Y  R Yj ) 
Es la probabilidad de
f ij
f .j
X  RiX
i  1,2,, K
sabiendo que Y  R Yj .
Igualmente se define la probabilidad condicional de Y  R Yj
dado X  RiX
Pˆ (Y  R Yj | X  RiX ) 
f ij
fi .
j  1,2,, K
Para comparar las distribuciones condicionales se puede trazar
en un solo gráfico sus histogramas. También se pueden calcular
los diferentes índices antes estudiados a mas de sus diagramas
de caja.
Descripción de los individuos
Para describir los individuos se puede recurrir a un gráfico de
los puntos (xi,yi) en un plano cartesiano. Es de particular
20
interés cuando los puntos forman grupos o una estructura
particular, como en las siguientes figuras.
Y
Gráfico 2
60
40
20
0
0
5
10
15
X
Gráfico 3
80,00
60,00
40,00
20,00
0,00
0
5
10
15
En el gráfico 1 hay 4 grupos mas o menos definidos. Para
concretar las ideas supongamos que X es la calificación de
álgebra y Y es la calificación en deportes. Leyendo en le
sentido de las manecillas de un reloj: encontramos un grupo
que tiene calificaciones alteas en las dos materias, el siguiente
grupo tiene calificaciones satisfactorias en álgebra pero
deficientes en deportes, el tercer grupo tiene calificaciones
bajas en ambas materias, el grupo último tiene calificaciones
bajas en álgebra paro satisfactorias en deportes.
El gráfico 2 muestra claramente una tendencia lineal sugiere
que existe una relación lineal entre las variables Y  a  bX .
21
En el gráfico 3 es difícil visualizar grupos o una relación de
tipo funcional. No se puede decir mucho sobre la relación entre
las variables o las características de los individuos.
Búsqueda de una relación funcional
El método clásico se basa en la regresión lineal o mas
generalmente en los modelos lineales generalizados. Aquí
presentaremos un método alternativo, pero antes estudiaremos
el coeficiente de correlación.
Coeficiente de correlación
Si las variables que se observan son cuantitativas, es decir si
los valores observados (xi,yi) son valores numé-ricos se puede
calcular la covarianza que se define por:
s( X , Y ) 

1 n
 ( xi  x )( yi  y )
n  1 i 11
1 n
n
xi y i 
xy

n  1 i 1
n 1
y la correlación que se define por:
r( X ,Y ) 

s( X , Y )
s( X , X ) s(Y , Y )
 ( x  x )( y  y )
 ( x  x )  ( y  y)
i
i
2
i
2
i
La ventaja de la correlación sobre la covarianza es su
adimensionalidad, a mas de los siguientes resultados:
22
Teorema. Para todo conjunto de observaciones numéricas
{(x1,y1), (x2,y2),..., (xn,yn)} se tiene que:
r( X , Y )  1
Teorema. Para todo conjunto de observaciones numéricas
{(x1,y1), (x2,y2),..., (xn,yn)}. r ( X , Y )  1 si y solo si existen
constantes a, b, b  0 tales que
i yi  a  bxi , b  signo(r ( X , Y ))
Teorema. Si las variables X, Y son independientes, su
correlación es nula.
Los teoremas anteriores permiten interpretar y comprender el
coeficiente de correlación. Un coeficiente de correlación
cercano a uno, en valor absoluto, sugiere la existencia de una
relación lineal entre las observaciones. Una correlación cercana
a cero puede ser causada por la independencia de las variables
aleatorias o por una relación no lineal entre las observaciones,
por ejemplo una relación cuadrática.
Consideremos el conjunto (-2,4), (-1,1), (0,0), (1,1), (2,4). Es
claro que su correlación es nula, en efecto:
x
i
i
 0,
xy
i
i
i
0
lo que implica r ( X , Y )  0 .
No obstante la relación entre X e Y es cuadrática, como se
aprecia en el siguiente gráfico.
23
5
4
3
2
1
0
-4
-2
0
2
4
Recta de regresión de mínimos cuadrados
La ecuación de la recta que pasa por los puntos (x1,y1), (x2,y2)
es y  y1  b( x  x1 ) , donde b es la pendiente, y está dada por:
y  y1
b 2
x2  x1
Observe que si x = x1, entonces y = y1; y si x = x2, y = y2. Si
tenemos n puntos para cada pareja podemos obtener una recta,
así tendríamos n(n-1)/2 rectas.
El problema es: encontrar una recta que de alguna manera sea
la mas próxima a todos los puntos.
El método de mínimos cuadrados propone encontrar una recta
y = a + bx que minimice la suma de residuos al cuadrado
n
(y
i 1
i
 a  bxi ) 2
Los estimadores de mínimos cuadrados son6:
6
Para la demostración puede consultar cualquier manual de regresión lineal
simple, por ejemplo: Montomery, pag. 476.
24
ˆ 
 ( x  x )( y  y) ,
 (x  x)
i
ˆ  y  ˆx
i
2
i
La ecuación de la recta es: y  y  ˆ ( x  x ) . La recta pasa por
el punto ( x , y ) y tiene pendiente ˆ .
El problema es que la recta puede estar determinada por pocos
puntos y no reflejar la verdadera relación entre la mayoría de
puntos.
Ejemplo. Suponga que se han realizado 10 observaciones de
una pareja (X; Y).
x
y
9
18
3
4
7
15
8
20
4
11
2
8
Nube de puntos
9
15
2
5
5
13
10
60
Nube. 9 primeros puntos
80
30
60
y = 1,745x + 2,6107
20
y = 3,6737x - 4,775
40
10
20
0
0
0
5
10
15
0
2
4
6
8
10
En el primer gráfico se muestra la nube de los 10 puntos con la
recta de mínimos cuadrados y la ecuación de la recta: y = 4.8 +
3.7x. Es evidente que hay un punto alejado del resto y es muy
influyente.
En el segundo gráfico se ha eliminado el último punto. La
ecuación de la nueva recta es: y = 2.6 + 1.7x que es muy
distinta a la anterior.
25
Línea resistente o línea de Tukey
La línea resistente está ligada a un estadístico resistente, la
mediana.
Cálculo de los coeficientes a, b
1. Se divide a X en tercios, de acuerdo a los siguientes
criterios:
Tercios Si n = 3K Si n = 3K+1 Si n = 3K+2
Inferior
K
K
K+1
Medio
K
K+1
K
Superior
K
K
K+1
S varios puntos tienen el mismo valor, se asignan al mismo
tercio, buscando siempre el equilibrio.
2. En cada tercio se calcula la mediana de los {x i} y la mediana de los {yi}. Sean: (xinf, yinf), (xmed, ymed), (xsup,ysup)
las parejas de medianas de cada tercio.
3. La pendiente de la recta resistente es:
ysup  yinf
bˆ 
xsup  xinf
la intersección con el eje Y es:
aˆ 
ainf
1
ainf  amed  asup 
3
 yinf  bˆxind , amed  y med  bˆxmed , asup  ysup  bˆxsup
26
Ejemplo. Línea resistente para los datos del ejemplo anterior.
Tercio inferior
X
2
2
3
Y
8
5
4
Medianas
(2, 5)
Tercio medio
4
5
7
8
11
13
15
20
(6, 14)
Tercio superior
9
9
10
18
15
60
(9, 18)
18  5
bˆ 
 1.857
92
1
aˆ  1.286  2.857  1.286  1.810
3
la ecuación de la línea resistente es: y = 1.810 + 1.857x. Si se
elimina el punto décimo la ecuación de la recta resistente no
cambia.
Análisis de los residuos
El análisis de residuos es similar al de mínimos cuadrados,
tienen un carácter confirmatorio, pero no sirve para validar
hipótesis, en realidad la línea resistente no presupone nada
sobre los errores. Para nuestro ejemplo, el gráfico pone en
evidencia la existencia de un punto lejano.
Residuos de la recta resistente
Residuos
60
40
20
0
-20 0
2
4
6
X
27
8
10
Indice exploratorio de ajuste

DQR(residuos)
DQR(Y )
DQR(residuales) es la distancia intercuartiles de los residuos,
DQR(Y) es la distancia intercuartiles de Y.
Este índice fluctúa entre 0 y 1. Si   0 , se puede pensar que el
ajuste es adecuado. Si   1 , el ajuste es incorrecto. Aquí no se
puede pensar en la significación estadística de este valor, se
trata de obtener un descriptor del concepto abstracto de
“ajuste”.
Para nuestro ejemplo   0.3 lo que significa que el ajuste es
aceptable.
Bibliografía
1. Dacunha–Castelle y Duflo (1982), Probabilités et
Statistiques, tomo1, Masson, París.
2. Freixa y otros (1992), Análisis Exploratorio de Datos:
Nuevas Técnicas Estadísticas, PPU Barcelona.
3. Montgomery y Runger (1996), Probabilidad y Estadística
Aplicadas a la Ingeniería, McGraw-Hill.
28
Descargar