06/09/2012 GEOESTADÍSTICA 2012 … O QUE HACEMOS CON LOS DATOS…. POST EGIPCIOS ROMANOS Y GRIEGOS Escuela Inglesa • Galton, Pearson, Tukey • Nightingale Escuela Franco Suiza • Bernoulli Escuela Francesa • Matheron 1 06/09/2012 QUÉ ES LA ESTADÍSTICA? | | Es el arte de realizar inferencias y o sacar conclusiones a partir de datos imperfectos Imperfectos?: son limitados, pero deben ser escogidos de manera tal de ser representativos. Es decir su elección está signada por el azar, es fortuita. UTILIDADES DE LA ESTADÍSTICA Diseño: permite el planeamiento y desarrollo de investigaciones Descripción: nos permite resumir datos numerosos y explorarlos. Inferencia: Nos permite hacer predicciones o generalizaciones acerca de las características de un conjunto finito o infinito de datos posibles basados en la representatividad de un subgrupo de datos 2 06/09/2012 DEFINIENDO ALGO… Población: total de sujetos o unidades de análisis de interés en un estudio | Muestra: subconjunto de la población en la cual se recolectarán datos | Parámetro: es una medida RESUMEN que se calcula sobre la POBLACIÓN | Estadístico o estadígrafo: es una medida RESUMEN calculada l l d sobre b la l MUESTRA | FLORENCE NIGTHINGALE 3 06/09/2012 4 06/09/2012 TIPOS DE DATOS Categóricos o cualitativos: registran la presencia de un atributo Numéricos o cuantitativos: resultan de contar o registrar una magnitud Otros: rangos, porcentajes, scores etc. Los datos cualitativos se conocen como variables: escalares/vectoriales continuas/discretas Escucho ejemplos! EN EL CASO DE DATOS NUMÉRICOS | DISCRETOS es un número finito de valores p posibles Ej. no se pueden tener dos hijos y medio Continuos: pueden tomar infinitos valores aun dentro de un rango acotado Ej. Estatura, peso, temperatura, concentración. Cómo clasifica a la variable edad? Qué pasa con le valor 0 en cada caso?. 5 06/09/2012 POR QUÉ ES IMPORTANTE IDENTIFICAR EL TIPO DE DATOS? El tipo de datos DETERMINA el método apropiado de análisis | Hay métodos estadísticos que son específicos para un cierto tipo de datos | | | | | Es importante conocer la “calidad de los datos” en general en términos estadísticos se habla de “ b “observaciones” i ” y estas t son mejores j cuando d cumplen con algunas condiciones: Aleatoriedad: cada observación o dato tiene la misma chance (probabilidad) de ser seleccionada. Independencia: la selección de una observación no afecta la selección de otra. Concentraciones?. Calidad puntual: exactitud: cercanía con el valor verdadero precisión: los valores aunque pueden estar cercanos entre si pueden estar alejados del valor verdadero o ideal 6 06/09/2012 EJEMPLOS CON Y SIN REPOSICIÓN | | Tengo una caja con 6 bolitas ( todas blancas) o 5 blancas y una negra Que probabilidad tengo de extraer una bolita en BLANCA la primera extracción y cuanto en la segunda con y sin reposición y en cada caso. ESTADÍSTICA DESCRIPTIVA (INTERPRETATIVA DE DATOS) | No permite hacer inferencias o proyecciones pero SI analizar exhaustivamente los datos con los que contamos sin importarnos la calidad de los mismos. Los describimos. Tablas | Gráficos | Estadísticos | 7 06/09/2012 TABLAS DE FRECUENCIA | Indican el rango de valores observados de la variable (dominio) y cuán frecuente ocurren | Frecuencias absolutas: contabilizan el número de individuos de una determinada modalidad | | | | | Frecuencias relativas: ( porcentajes ) Idem pero dividido por el total Frecuencia acumulada: indican la cantidad de datos acumulados hasta cierto valor de la variable. variable Pueden ser absolutas o relativas. Tienen sentido si la variable es ordinal N: número de individuos de la población n: número de individuos de una muestra Variables cualitativas (tablas) Sexo FA FR ----------------------------------Hombre 25 0,42 Mujer 35 0,58 Total 60 1,00 8 06/09/2012 HISTOGRAMAS Equivalentes n √n 100 1000 100000 1000000 10.0 31 6 31.6 316.2 1000 1+3.22× log10 (n) 7.4 10 10.7 7 17.1 20.3 HISTOGRAMAS Cuantas clases?: atención a la línea de base | Cuidado con las clases √n o 1 + 3.3 3 3 log10 (n) | Proporciones representadas en áreas | Los intervalos deben ser de la misma longitud? | Área total bajo el histograma 100% | Qué información obtenemos? | 1. Forma de la distribución | 2. Si hay agrupamientos | 3. Si hay datos atípicos | 9 06/09/2012 POLÍGONOS DE FRECUENCIAS 10 06/09/2012 GRAFICO DE TALLO Y HOJAS Tasa de gripe X cada mil habitantes, año 2000 en Bs. As. | Tasa Tasa 0 0 0.00 3.20 1 266 1.28 3.21 2 18 1.60 4.01 3 0122 1.67 4.22 4 0238 2 19 2.19 4 4.38 38 5 2.87 4.84 6 3.01 8.07 7 3.16 9.29 8 0 9 2 | Que información obtenemos? | El rango de las observaciones | La forma de la distribución (simetría) | Cuántos picos tiene la distribución | Si hay valores que se apartan de la distribución | No hay pérdida de información Apropiado para muestras pequeñas 11 06/09/2012 MEDIDAS RESÚMENES Medidas de posición o localización: describen un valor alrededor del cual se encuentran las observaciones | Medidas de dispersión o escala: muestran la variabilidad de un conjunto de datos | | | 1.- Media aritmética o promedio muestral Media poblacional μ= E (X) también conocida como “esperanza de X” QUÉ PODEMOS DESCRIBIR DE UNA DISTRIBUCIÓN MUESTRAL? Tendencia Central: indican valores a los que los datos parecen agruparse | Dispersión: indican la mayor o menor cercanía de los datos respecto de las mediadas de la TC | varianza, desviación estándar, rango intercuartílico, coeficiente de variación. Posición: dividen un conjunto ordenado de datos en grupos con individuos dentro de una misma clase o rango cuartiles, deciles, percentiles Forma: permiten observar geometrías de distr. asimetría , kurtosis 12 06/09/2012 En una curva simétrica las medidas de posición y de dispersión son iguales Existe algún caso donde no exista un valor mas frecuente y se cumplan las condiciones de simetría? PROPIEDADES DE LA MEDIA Se usa para datos numéricos | Representa el centro de gravedad de los datos: es decir la suma de las distancias a la media es 0 | Es muy sensible a la presencia de datos atípicos o outiers | 13 06/09/2012 QUÉ PODEMOS DESCRIBIR DE UNA DISTRIBUCIÓN MUESTRAL? Tendencia Central: indican valores a los que los datos parecen agruparse | Dispersión: indican la mayor o menor cercanía de los datos respecto de las mediadas de la TC | varianza, desviación estándar, rango intercuartílico, coeficiente de variación. Posición: dividen un conjunto ordenado de datos en grupos con individuos dentro de una misma clase o rango cuartiles, deciles, percentiles Forma: permiten observar geometrías de distr. asimetría , kurtosis MOMENTOS Primer momento: media | Segundo momento: varianza | Momento de tercer orden: asimetría | Momento de cuarto orden : kurtosis | 14 06/09/2012 MEDIANA MEDIANA | Mediana Poblacional: representa el dato que me deja al 50 % de población de cada lado. Es el valor alor (n) que di divide ide a la serie de datos en dos partes iguales o equidistantes del centro o posición de centro. Cada segmento tiene igual NUMERO de términos. De un lados todos son menores y del otro todos son mayores. Puede ser un número inexistente entre el conjunto de datos. | No se halla influida por outliers | Mediana muestral: es el dato que ocupa la posición central en una muestra ordenada si los datos son impares n/2 sino n+1/2 | Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Datos 20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45 1. Ordenar la muestra 2. Q 1 El cuartil inferior es n/ 4= 25 % ocupa la posición (n+1)/4 en la muestra ordenada 24 + 25/ 2= 24.5 1. Q 3 es el que representa al 75 % de la muestra y es 3 ( +1)/4 15 75 (39) (n+1)/4=15.75 2. Q 2 es la mediana o me = n + 1/2 = 10.5 si el resultado es decimal se promedian los datos que se encuentran a izquierda y derecha de la posición obtenida Distancia intecuartílica Di = Q3 – Q1 aloja al 50 % de la muestra 1ª cota inferior= inferior Q1- 1.5 1 5 Di = 15 2ª cota inferior = Q1- 3 Di= -19 1ª cota superior= Q3 + 1.5 Di = 71.6 2ª cota superior= Qs+ 3 Di = 82.5 15 06/09/2012 PARA QUE SIRVE UN BOX PLOT? Ubica los datos outliers | Muestra la asimetría de la distribución | Ofrece una medida de posición robusta (mediana) | Una medida de posición robusta (Di) | Muestra la existencia de simetría o no | Me muestra 5 números resúmen | EJERCICIO 16 06/09/2012 Mínimo 4.00 7.00 55.00 Q1 8.00 28.00 80.00 Mediana 14.50 30.00 85.00 Q3 32.75 43.00 90.00 Máximo 51.00 60.00 95.00 Gráfico de caja y bigote con 3 componentes 90,0 80,0 95,0 55,0 3 85,0 43,0 28,0 60,0 7,0 2 30,0 32,8 8,0 4,0 51,0 1 14,5 0 20 40 60 80 100 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 datos datos datos variable variable variable 1 2 3 5 20 55 5 20 60 4 20 65 5 20 70 5 20 75 5 20 80 5 60 85 5 40 90 5 45 95 5 45 95 5 45 95 5 7 78 5 45 80 5 45 80 5 45 80 5 40 80 8 40 80 8 45 80 8 45 80 8 43 80 8 43 80 8 43 80 8 43 80 8 45 80 8 50 80 8 30 80 8 30 80 8 30 95 12 30 95 12 30 95 12 30 95 12 30 90 12 30 90 12 30 90 12 30 90 13 30 90 14 30 90 15 30 90 16 30 90 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 28 28 28 28 28 28 28 28 25 26 27 90 90 90 90 90 90 90 90 90 90 95 95 95 95 95 85 85 85 85 85 85 85 85 85 85 85 85 85 55 55 55 55 55 55 55 VARIANZA Y DESVIACIÓN ESTANDARD La varianza es la media de las diferencias de los datos con la media elevada al cuadrado σ2 S2 Elevar las diferencias al cuadrado me elimina los valores negativos. | La desviación estandar mide cuanto se separan los datos respecto de la media (dispersión) se la identifica con la letra σ = √σ2 | MAL! Grados de libertad! 17 06/09/2012 EJERCICIO COEFICIENTE DE VARIACIÓN | CV= σ / µ × 100 Poblacional | CV= S/ ō × 100 ¾ ¾ ¾ Muestral No tiene unidades Es una medida de variabilidad relativa ya que mide la desviación típica p “que q tamaño tiene con respecto ala media” Se utiliza en comparaciones 18 06/09/2012 MEDIDAS DE SIMETRÍA Coeficiente de g de Fisher MEDIDAS DE FORMA 19 06/09/2012 D1 aprox = 4/3 S cuando la Distribución es simétrica y acampanada. Si la distribución es muy asimétrica → S> D1 Propiedades de la desviación estándar: S= 0 solamente cuando todos los datos son iguales, de otro modo es S > 0 Es una medida de dispersión sensible a los datos outliers S es una medida de dispersión alrededor de la media y DEBE usarse acompañando a la misma cuando se presentan datos. 20 06/09/2012 DISTRIBUCIÓN NORMAL 1. 2. 3. 4. 5. 6. Tiene dominio en los reales (R) y es continua f (x) > 0 para todo x real es simétrica respecto a la recta x = µ Tiene un punto máximo en ℮ ( exp. de ) Presenta dos puntos de inflexión en x - µ y x+µ Cualquier transformación lineal de un N da otra N 21 06/09/2012 FIN DE LA PRIMERA PARTE | Solo contiene ejemplos en las siguientes 22 06/09/2012 23 06/09/2012 DISTRIBUCIONES DE MEDIAS ARITMÉTICAS Si efectuamos varios muestreos en una POBLACIÓN se obtiene la media aritmética de cada muestreo. | Luego genero mi nueva población con los PROMEDIOS, que a su vez tiene su propio promedio μ (xō) y 2 x | El promedio de una población original es igual al promedio de la población de promedios μ = μō | La varianza de una población de promedios viene dada por 1/n (con n observaciones) de la varianza de la población original: 2 = 2/n | Aplico √ →x = /√n | PARA MUESTRAS | Existe una relación similar con S Corolario: la variaza de una población de promedios es SIEMPRE menor que la varianza de la población ORIGINAL a la desviación típica de la población de promedios se la conoce como error estándar | se puede d aplicar li la l estandarización t d i ió para los l promedios: (x es subíndice y X es promedio) | 24 06/09/2012 25 06/09/2012 26 06/09/2012 27 06/09/2012 28 06/09/2012 FUNCIÓN DE DENSIDAD f (x) es una función que describe la distribución de probabilidades de la variable aleatoria x | Una función de densidad debe cumplir con algunos requisitos: f (x) ≥ 0 para todo x | El área bajo la curva total es 1 | La probabilidad de que un evento ocurra en un intervalo [a,b] es el área bajo la curva de la función de ese intervalo: P (a< b) = P (x (a,b))= ∫ba f (x) dx | Si x = a = 0 entonces es entre menos infinito y a el área a tener en cuenta por la integración Variables discretas Variables continuas E (x) = ∑ xi pi E (x) = ∫ x f (x) dx 2 (x) = ∑ (xi –μ)2 pi 2 (x) = (x – μ(x))2 f (x) dx 29