Sesión 3: Análisis Exploratorio de Datos Espaciales (AEDE): Técnicas básicas Profesora: Coro Chasco Yrigoyen Universidad Autónoma de Madrid 17 a 21 de mayo, 2010 2010, Coro Chasco Yrigoyen All Rights Reserved Índice del Curso S1: Introducción a la Econometría Espacial SP1: Introducción al programa GeoDa S2: Efectos espaciales: dependencia espacial S3: Análisis Exploratorio de Datos Espaciales (AEDE): técnicas básicas SP2: AEDE en GeoDa: técnicas básicas S4: Contrastes de dependencia espacial: técnicas avanzadas de AEDE S5: Análisis confirmatorio de datos espaciales: especificación de los modelos de dependencia espacial SP3: AEDE en GeoDa: técnicas avanzadas S6: Estimación y contrastes de un modelo de regresión espacial por el método de Mínimos Cuadrados Ordinarios S7: Estimación y contraste de los modelos de dependencia espacial SP4: El módulo de regresión espacial en el programa GeoDa S8: Estimación y contraste del modelo del error espacial y estrategias de modelización espacial. SP5: Aplicación de la estrategia de modelización clásica a casos prácticos con el programa GeoDa @ 2010, Coro Chasco Yrigoyen All Rights Reserved 2 . CHASCO, C. y Rodríguez-Avilés (2009), “Análisis de datos Sesión 3 espacio-temporales para la economía y el geomarketing”. NetBiblo, pp. 31-45. Esquema general: Introducción al AEDE Análisis univariante de datos espaciales 1. Representación de la tendencia central 2. Representación de puntos atípicos Análisis multivariante de datos espaciales 1. Diagramas de dispersión 2. Gráfico de coordenadas paralelas 3. Gráficos condicionales @ 2010, Coro Chasco Yrigoyen All Rights Reserved 3 Sesión 3 1. Introducción al AEDE (I) El AEDE forma parte del más amplio campo del AED. El AED (o minería de datos) es un conjunto de técnicas estadísticográficas diseñadas para detectar patrones y tendencias en los datos, con objeto de formular hipótesis sobre los mismos. El AED permite al usuario manipular diversas “vistas” de los datos: histogramas, diagramas de caja, gráficos q-q, matrices ydiagramas de dispersión, etc. @ 2010, Coro Chasco Yrigoyen All Rights Reserved Statistica (StatSoft) 4 Sesión 3 1. Introducción al AEDE (II) Mapas: una forma de representar los datos geográficos. AEDE: consideración explícita del mapa como una vista más, integrada en el esquema general junto con el resto de gráficos dinámicos. @ 2010, Coro Chasco Yrigoyen All Rights Reserved 5 . ANSELIN, L. (1998),“Exploratory spatial data analysis in a geocomputational environment”. Conference in GeoComputation’98, Bristol (UK), pp. 17-19. Sesión 3 1. Introducción al AEDE (III) Técnicas del AEDE: 1. Describen y visualizan distribuciones espaciales. 2. Linking & brushing: permiten la selección de localizaciones en diferentes vistas o pantallas. 3. Identifican localizaciones atípicas o “spatial outliers”. 4. Detectan patrones de asociación espacial, clusters o zonas calientes/frías. Etc. @ 2010, Coro Chasco Yrigoyen All Rights Reserved 6 Sesión 3 2. Análisis univariante espacial 2.1. Representación de la tendencia central 2.1.1. Mapas temáticos (cuantiles) 2.1.2. Histograma de frecuencias 2.1.3. Mapa de la desviación típica 2.2. Representación de puntos atípicos 2.2.1. Mapa de percentiles 2.2.2. Diagrama/mapa de caja 2.2.3. Cartograma @ 2010, Coro Chasco Yrigoyen All Rights Reserved 7 Sesión 3 2.1. Representación de la tendencia central 2.1.1. Mapas temáticos (cuantiles) Mapa temático: representación cartográfica de una variable de datos espaciales mediante símbolos y colores que pongan de manifiesto las diferencias de valores. Mapas de cuantiles: mapas temáticos que representan la tendencia espacial global de una variable. Los datos se dividen y agrupan en una serie de categorías (cuantiles) con igual número de observaciones Los cuantiles son valores que dividen una muestra de datos en un determinado número de categorías de modo que cada una de ellas (en la medida de lo posible) contenga igual número de observaciones (cuando el número de categorías es de 4, 5 ó 6, se habla de cuartiles, quintiles o sextiles, respectivamente). @ 2010, Coro Chasco Yrigoyen All Rights Reserved 8 Sesión 3 2.1. Representación de la tendencia central 2.1.1. Mapas temáticos (cuantiles) QUANTILE MAPS @ 2010, Coro Chasco Yrigoyen All Rights Reserved 9 Sesión 3 2.1. Representación de la tendencia central 2.1.2. Histograma de frecuencias Representación gráfica de una variable en forma de barras, donde la altura de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias y en el eje horizontal, los valores de la variable divididos en intervalos. Este gráfico resulta de especial utilidad en variables de naturaleza continua, pues hace posible una más fácil visualización de su distribución al agrupar estos valores en categorías o clases diferentes. @ 2010, Coro Chasco Yrigoyen All Rights Reserved 10 Sesión 3 2.1. Representación de la tendencia central 2.1.2. Histograma de frecuencias @ 2010, Coro Chasco Yrigoyen All Rights Reserved 11 Sesión 3 2.1. Representación de la tendencia central 2.1.2. Histograma de frecuencias El mapa de cuantiles no resulta de utilidad en casos en los que la variable en cuestión tenga una distribución muy alejada de la distribución normal. No es útil cuando la variable sea muy asimétrica o contenga un gran número de observaciones con valores parecidos pues habrá cuantiles que no podrán ser definidos al no poder asignar un mismo número de observaciones a los diferentes grupos. @ 2010, Coro Chasco Yrigoyen All Rights Reserved 12 Sesión 3 2.1. Representación de la tendencia central 2.1.3. Mapa de la desviación típica Agrupa las observaciones según que sus valores caigan dentro de un rango estandarizado Rango estandarizado: un número determinado de unidades de la desviación típica a partir de la media. Las categorías en las que se divide la variable se corresponden con múltiplos de la desviación típica de la variable. En el ejemplo de la Diapositiva siguiente: este mapa clasifica las secciones censales según la diferencia en términos de la tasa de extranjeros que tengan del nivel medio de secciones en la “Almendra Central” de Madrid. @ 2010, Coro Chasco Yrigoyen All Rights Reserved 13 Sesión 3 2.1.4. Mapa de la desviación típica STANDARD DEVIATION MAP @ 2010, Coro Chasco Yrigoyen All Rights Reserved 14 Sesión 3 2.2. Representación de puntos atípicos PERCENTILE MAP Puntos atípicos (elementos de discontinuidad en una variable): son valores de la variable excepcionalmente bajos/altos que pueden no ser representativos de la distribución general y afectar al comportamiento de los contrastes estadísticos. Están retratando un segmento interesante de la población (por ejemplo, zonas calientes o frías de negocio). El AEDo suele detectar, como atípicos, valores que son simplemente errores en la entrada de datos o acontecimientos extraños, para los que no existe explicación, en cuyo caso se aconseja eliminarlos, para evitar distorsiones inútiles en el análisis posterior. Técnicas: Mapa de percentiles, diagrama/mapa de caja y cartograma. @ 2010, Coro Chasco Yrigoyen All Rights Reserved 15 Sesión 3 2.2. Representación de puntos atípicos PERCENTILE MAP 2.2.1. Mapa de percentiles Caso particular del mapa de cuantiles: se realiza una agrupación de valores destinada a acentuar los valores extremos. Una vez ordenada la variable de menor a mayor, se crean seis grupos o categorías, que son los correspondientes a los percentiles: <1, [1,10), [10,50), [50,90), [90,99), >99. Las regiones que se encuentren en los percentiles 1º y 99º, serán las que tienen los valores más bajos/altos de la distribución. Los percentiles son valores que dividen una variable en 100 partes de forma que cada una contenga (en la medida de lo posible) igual número de observaciones. @ 2010, Coro Chasco Yrigoyen All Rights Reserved 16 Sesión 3 2.2. Representación de puntos atípicos 2.2.1. Mapa de percentiles @ 2010, Coro Chasco Yrigoyen All Rights Reserved PERCENTILE MAP 17 Sesión 3 2.2. Representación de puntos atípicos 2.2.2. Diagrama/mapa de caja PERCENTILE MAP Método de representación basado en el cálculo de los cuartiles y la mediana de una variable, así como la obtención de las llamadas cotas o valores adyacentes superior e inferior. La “caja” es un rectángulo que se construye de forma que el valor inferior de la misma es el primer cuartil (que contiene el 25% de las observaciones) y el valor superior, el tercer cuartil (que contiene el 75% de las observaciones). La mediana queda destacada en mitad de la caja con un círculo y una línea horizontal que la atraviesa. Las cotas se obtienen sumando/restando a la mediana el producto de los valores del tercer (primer) cuartil por 1,5 veces (ó 3 veces) el recorrido intercuartílico. Valores atípicos: situados por encima (o por debajo) de dichas cotas, pudiendo no existir dichos valores (cuando la variable tenga valores muy concentrados en torno a la media). @ 2010, Coro Chasco Yrigoyen All Rights Reserved 18 2.2. Representación de puntos atípicos 2.2.2. Diagrama/mapa de caja @ 2010, Coro Chasco Yrigoyen All Rights Reserved Sesión 3 19 2.2. Representación de puntos atípicos 2.2.3. Cartograma Sesión 3 @ 2010, Coro Chasco Yrigoyen All Rights Reserved 20 4.2. Spatial distributions plots 4.2.3. Cartogram @ 2010, Coro Chasco Yrigoyen All Rights Reserved 21 Sesión 3 Sesión 3 3. Análisis multivariante de datos espaciales 3.1. Diagramas de dispersión 3.1.1. Diagrama de dispersión bivariante 3.1.2. Diagrama de dispersión espacio-temporal 3.2. Diagrama de coordenadas paralelas 3.3. Gráficos condicionales @ 2010, Coro Chasco Yrigoyen All Rights Reserved 22 Sesión 3 3.1. Diagramas de dispersión PERCENTILE MAP 3.1.1. Diagrama de dispersión bivariante Diagrama de dispersión o nube de puntos: descripción de la relación o dependencia existente entre dos variables X-Y. La forma que presenta este nube de puntos refleja el grado de correlación entre las dos variables, que puede ser nula (si los puntos forman un círculo), lineal (si los puntos representan una elipse) o no lineal (si los puntos toman cualquier otra forma. La función más sencilla y útil en la mayoría de los casos, por su simplicidad, es la recta. En este caso, la dependencia entre las variables es medida a través del coeficiente de correlación linea Significatividad de este coeficiente: si la relación entre ambas variables sea o no lineal, y existan ciertos puntos atípicos que le resten representatividad. @ 2010, Coro Chasco Yrigoyen All Rights Reserved 23 Sesión 3 3.1. Diagramas de dispersión PERCENTILE MAP 3.1.1. Diagrama de dispersión bivariante @ 2010, Coro Chasco Yrigoyen All Rights Reserved 24 Sesión 3 3.1. Diagramas de dispersión PERCENTILE MAP 3.1.1. Diagrama de dispersión bivariante @ 2010, Coro Chasco Yrigoyen All Rights Reserved 25 Sesión 3 3.1. Diagramas de dispersión 3.1.2. Diagrama de dispersión espacio-temporal PERCENTILE MAP @ 2010, Coro Chasco Yrigoyen All Rights Reserved 26 Sesión 3 3.2. Gráfico de coordenadas paralelas Alternativa al diagrama de dispersión: permite un análisis multivariante (superior a dos variables). Los valores de las variables se representan en ejes horizontales paralelos, desde los inferiores (a la izquierda del eje) a los superiores (a la derecha). Las observaciones se representan en forma de múltiples segmentos que van uniendo su posición en cada eje según los valores de las variables que adoptan. Cada variable es re-escalada de forma que el valor mínimo se encuentre en el extremo izquierdo y el máximo en el extremo derecho. Principal utilidad de este gráfico consiste en la identificación de agrupamientos de valores en ciertas observaciones que pueden ser también de naturaleza espacial. @ 2010, Coro Chasco Yrigoyen All Rights Reserved 27 Sesión 3 3.2. Gráfico de coordenadas paralelas @ 2010, Coro Chasco Yrigoyen All Rights Reserved 28 Sesión 3 3.3. Gráficos condicionales Utilización de 2 variables condicionales que dividen a la muestra de datos en diferentes grupos o categorías. El objetivo de este gráfico consiste en representar, para una tercera variable continua, un gráfico (o mapa) con aquellas observaciones que estén comprendidas dentro de cada categoría. GeoDa considera, para cada una de las variables condicionales, 3 categorías, con lo que se producirá un total de 9 gráficos o mapas. Cuatro tipos de gráficos condicionales: mapas, diagramas de caja, histogramas condicionales y diagramas de dispersión condicionales. @ 2010, Coro Chasco Yrigoyen All Rights Reserved 29 @ 2010, Coro Chasco Yrigoyen All Rights Reserved 30