Analisis Exploratorio de datos

Anuncio
Analisis Exploratorio de datos
Muchas variables=Datos
Multivariantes
Notación
Población: Conjunto de individuos/elementos
objeto del estudio
Variable: Fenomeno objeto del estudio
Muestra: Subconjunto de la población
Dato: Valor concreto de la variable
x1,..... xn
= n valores de la variable respuesta
Fila
=Dato
multivariante
Columna
=datos
Para una Variable
Nociones Algebra lineal
•
•
•
•
•
•
Vector
Vector traspuesto
Matriz
Matriz traspuesta
Traspuesta de traspuesta
Producto de Matrices
Mas notación
• Variable vectorial o multivariante El conjunto de
caracteristicas que nos interesan de la
población
• Dato multivariante: Valor del vector en un
individuo de la población
• n = Número de elementos de la muestra
• p = Número de variables
xij
= dato i de la variable j
Matriz de datos
Estadisticos: media y covarianzas
(Media Muestral): Es la media arítmética de los datos
1
n
Xj
1
n
n
Xi
i 1
n
X ij
Vector de medias:
i 1
X
Media de X j
Repaso de una variable
Varianza Variable X i
sii
Desviación Tipica Xi
Covarianza X i , X j
sii
sij
Correlación X i , X j
Lineal de Pearson
vi
rij
si
2
S
Matriz de Varianzas-Covarianzas
S=
S
1
X 'X
n
Varianza Variable Xi
XX
Covarianza X i , X j
Matriz de Correlaciones
Correlación X i , X j
R=
D=
s11
0
0
0
0
s22
0
0
0
0
sii
0
0
0
0
s pp
1
R D SD
1
Ejemplos
+Ejemplos
Combinaciones lineales
y Variables Tipificadas
1 Variable
1. No depende de las unida
des
Combinación lineal
y
ax b
2. Comparar valores en di
ferentes poblaciones
Variable Tipificada
y
sy
x
x
3. Datos atipicos
sx
1
y
0
Varias Variables
y
a
a1 x1 a2 x2 .... ai xi
( a1 , a2 , ai , a p )
x
( x1 , x2 , xi , x p )
• y es el producto escalar de a y x
•Es la proyección de x sobre a
..... a p x p
Estandarización o Tipificación
Univariante
Sy
y
R_x
0
La razón es Y=D -1 ( X
X)
D
1
D
1
2
Método para implementar
Desviaciones Típicas
Representaciones gráficas de los
datos
Tipos de diagramas
• Matriz de diagramas de Dispersión
• Diagramas de Estrellas
• Diagramas de cajas y bigotes (box plots)
Objetivos
• Relación entre las variables
• ¿Grupos?
• Datos atípicos
-Negativa vs
Positiva
-Lineal No lineal
-Fuerte debil
Matriz de diagramas de dispersión
Entrada i,j= Diagrama de dispersion de la
variable X i respecto a la variable X j
¿Existe diferencias por grupos?
Diagramas de estrella
x i1,x i2 ,x ij ,x ip =Estrella con
p radious de
longitud x ij
Diagrama de cocodrilos
Setosa
Versicolor
Virginica
Diagramas de cajas y bigotes
Estadisticos para diagrama de
cajas
• Mínima
• 1 Cuartil
Q1: Es el valor que deja el 25% de los datos debajo de el (La
mediana de la primera mitad de los datos)
• 2 Cuartil
Q2: Mediana (50 % de los datos)
• 3 Cuartil
Q3:Es el valor que deja el 75 % de los datos debajo de el.
• Máxima
• Percentil p: Es el valor que deja el p% de los datos debajo de el.
Nota 3: El cálculo de los cuartiles es ligeramente distinto en
cada software
4.2 Diagrama de cajas y bigotes (box-plot) (Simple)
1 Un rectángulo vertical (caja) que comienza en Q1 y termina en Q3 y tiene
una linea central en M
2 Dos lineas que unen la caja con el mínimo y el máximo (Bigotes)
4.2 Con Datos atípicos
Rango Intercuartílico = R.I= Q3-Q1
Límite admisible inferior
= L.I= Q1-1.5 (R.I)
Límite admisible superior
= L.S=Q3+1.5 (R.I)
Datos atipicos: Los que están fuera del intervalo (L.I, L.S)
2’ Dos lineas que unen la caja con el mínimo y el maximo en (L.I,L.S)
3. Se señalan los datos atípicos
Distancias
Motivación: Disponemos de un conjunto de datos mul
tivariantes y tenemos un nuevo dato. ¿Cómo esta de
Lejos de nuestros datos?
Teoría Matemática de las distancias
Distancia de Mahalanobis
Propiedades
• Tiene en cuenta la
diferente variabilidad
de cada una de las
poblaciones
• Tiene en cuenta las
correlaciones
Entendiendo la distancia de Mahalanobis
La distancia se ajusta a las varianzas
Caso 3
La distancia de Mahalanobis como medida
de dispersión de los datos
Variables : 4 tipos de residuos
Población : Comunidad de Madrid
Descargar