Analisis Exploratorio de datos Muchas variables=Datos Multivariantes Notación Población: Conjunto de individuos/elementos objeto del estudio Variable: Fenomeno objeto del estudio Muestra: Subconjunto de la población Dato: Valor concreto de la variable x1,..... xn = n valores de la variable respuesta Fila =Dato multivariante Columna =datos Para una Variable Nociones Algebra lineal • • • • • • Vector Vector traspuesto Matriz Matriz traspuesta Traspuesta de traspuesta Producto de Matrices Mas notación • Variable vectorial o multivariante El conjunto de caracteristicas que nos interesan de la población • Dato multivariante: Valor del vector en un individuo de la población • n = Número de elementos de la muestra • p = Número de variables xij = dato i de la variable j Matriz de datos Estadisticos: media y covarianzas (Media Muestral): Es la media arítmética de los datos 1 n Xj 1 n n Xi i 1 n X ij Vector de medias: i 1 X Media de X j Repaso de una variable Varianza Variable X i sii Desviación Tipica Xi Covarianza X i , X j sii sij Correlación X i , X j Lineal de Pearson vi rij si 2 S Matriz de Varianzas-Covarianzas S= S 1 X 'X n Varianza Variable Xi XX Covarianza X i , X j Matriz de Correlaciones Correlación X i , X j R= D= s11 0 0 0 0 s22 0 0 0 0 sii 0 0 0 0 s pp 1 R D SD 1 Ejemplos +Ejemplos Combinaciones lineales y Variables Tipificadas 1 Variable 1. No depende de las unida des Combinación lineal y ax b 2. Comparar valores en di ferentes poblaciones Variable Tipificada y sy x x 3. Datos atipicos sx 1 y 0 Varias Variables y a a1 x1 a2 x2 .... ai xi ( a1 , a2 , ai , a p ) x ( x1 , x2 , xi , x p ) • y es el producto escalar de a y x •Es la proyección de x sobre a ..... a p x p Estandarización o Tipificación Univariante Sy y R_x 0 La razón es Y=D -1 ( X X) D 1 D 1 2 Método para implementar Desviaciones Típicas Representaciones gráficas de los datos Tipos de diagramas • Matriz de diagramas de Dispersión • Diagramas de Estrellas • Diagramas de cajas y bigotes (box plots) Objetivos • Relación entre las variables • ¿Grupos? • Datos atípicos -Negativa vs Positiva -Lineal No lineal -Fuerte debil Matriz de diagramas de dispersión Entrada i,j= Diagrama de dispersion de la variable X i respecto a la variable X j ¿Existe diferencias por grupos? Diagramas de estrella x i1,x i2 ,x ij ,x ip =Estrella con p radious de longitud x ij Diagrama de cocodrilos Setosa Versicolor Virginica Diagramas de cajas y bigotes Estadisticos para diagrama de cajas • Mínima • 1 Cuartil Q1: Es el valor que deja el 25% de los datos debajo de el (La mediana de la primera mitad de los datos) • 2 Cuartil Q2: Mediana (50 % de los datos) • 3 Cuartil Q3:Es el valor que deja el 75 % de los datos debajo de el. • Máxima • Percentil p: Es el valor que deja el p% de los datos debajo de el. Nota 3: El cálculo de los cuartiles es ligeramente distinto en cada software 4.2 Diagrama de cajas y bigotes (box-plot) (Simple) 1 Un rectángulo vertical (caja) que comienza en Q1 y termina en Q3 y tiene una linea central en M 2 Dos lineas que unen la caja con el mínimo y el máximo (Bigotes) 4.2 Con Datos atípicos Rango Intercuartílico = R.I= Q3-Q1 Límite admisible inferior = L.I= Q1-1.5 (R.I) Límite admisible superior = L.S=Q3+1.5 (R.I) Datos atipicos: Los que están fuera del intervalo (L.I, L.S) 2’ Dos lineas que unen la caja con el mínimo y el maximo en (L.I,L.S) 3. Se señalan los datos atípicos Distancias Motivación: Disponemos de un conjunto de datos mul tivariantes y tenemos un nuevo dato. ¿Cómo esta de Lejos de nuestros datos? Teoría Matemática de las distancias Distancia de Mahalanobis Propiedades • Tiene en cuenta la diferente variabilidad de cada una de las poblaciones • Tiene en cuenta las correlaciones Entendiendo la distancia de Mahalanobis La distancia se ajusta a las varianzas Caso 3 La distancia de Mahalanobis como medida de dispersión de los datos Variables : 4 tipos de residuos Población : Comunidad de Madrid