NOCIONES DE ESTADÍSTICA CURSO PRÁCTICO DE CLIMATOLOGÍA – 2012 Matilde Ungerovich- mungerovich@fisica.edu.uy DEFINICIÓN PREVIA: Distribución: función que nos dice cuál es la probabilidad de que cada suceso (valor) ocurra. Ej: distribución normal Distribución continua: para valores cercanos se producen variaciones de probabilidad de ocurrencia pequeñas QUÉ ES LA ESTADÍSTICA? Estadística descriptiva: técnicas o procedimientos para recolectar, ordenar y resumir la información (ej: tablas, gráficos, promedios, etc) Estadística inferencial: técnicas para generalizar a una población entera con la información obtenida de unos pocos datos EDA: Exploratory Data Analysis Da sentido a las series de datos Nos puede dar idea de cuál es el proceso que está ocurriendo Los gráficos son una forma de resumir y entender datos Características de EDA La robustez y resistencia son medidas de insensibilidad a suposiciones sobre la naturaleza de los datos. Resistencia- sensibilidad a datos atípicos. Un método es resistente si es poco sensible a datos atípicos. Robustez- sensibilidad a la suposición de que los datos tienen una distribución dada. Por ejemplo, el promedio es una muy buena caracterización de una serie de datos si estos tienen una distribución Gaussiana, pero no si tienen distribución exponencial (el promedio no es robusto). No es mejor o peor “globalmente” , depende de lo que estemos evaluando CÓMO CARACTERIZAR UNA SERIE DE DATOS? POSICIÓN- dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos CENTRALIZACIÓN- indican valores con respecto a los cuales los datos parecen agruparse DISPERSIÓN- indican mayor o menor concentración de los datos con respecto a las medidas de centralización SIMETRÍA- cómo están distribuidos los datos respecto al valor central MEDIDAS DE POSICIÓN: PERCENTILES Se llama Pr (percentil r) a un valor tal que el r% de las observaciones son iguales o menores que él y el 100%-r% de las observaciones son mayores a él. ALGUNOS PERCENTILES IMPORTANTES: • Mediana = P50 separa al 50% de los valores menores del 50% de las observaciones mayores. Sea x la muestra ordenada de manera creciente: • Cuartiles: el primero es P25, el segundo o mediana es P50, el tercero es P75. Se para al conjunto ordenado de observaciones en 4 partes iguales , cada una de ellas formada por un 25% de los valores. El primer cuartil es “la mediana de la mediana”. Ejemplo Tengo la siguiente muestra: [13 3 7 2 9 10 2 6 4 0 9 1 5 ] 1- Buscar el percentil 0.25 de la muestra (primer cuartil) 2- Buscar la mediana de la muestra Repetir para [100 3 7 2 9 10 2 6 4 0 9 1 5 ] Es la mediana resistente? MEDIDAS DE CENTRALIZACIÓN: media, mediana y moda Este tipo de medidas nos permiten identificar y ubicar el valor alrededor del cual se tienden a reunir los datos (“Punto central”). MEDIA (promedio): suma de todos los valores dividido entre la cantidad de valores. Es decir, nos informa el valor que obtendría cada uno de los individuos si se distribuyeran los valores en partes iguales. MEDIANA: valor que cumple que la mitad de los datos son mayores al mismo y la mitad son menores. MODA: valor que más veces se repite dentro de los datos. Si los que más se repiten son 2 valores, se llama bimodal, si son varios, multimodal. Ejemplo Tengo las siguiente muestra: [30 20 27 22 21 18 18 25 26 20] [0 20 27 22 21 18 18 25 26 20] Buscar media y moda Son estas medidas resistentes? MEDIA vs. MEDIANA Coinciden si la distribución es simétrica Si no coinciden, es preferible la mediana (por ser mas resistente, es decir, poco sensible a datos atípicos) La media siempre es única (a diferencia de la mediana) La media es muy representativa si la distribución es Gaussiana, pero inútil en otro tipo de distribuciones. Por ejemplo, es representativa de la temperatura media pero no de la precipitación acumulada. EJEMPLO: PUESTO CANT. DE EMPLEADOS SUELDO repartidor 3 300 capataz 1 450 encargado 1 750 administrativo 1 900 gerente 1 6000 Sólo un valor supera la media!!!! MEDIDAS DE DISPERSIÓN Nos dicen en qué medida las observaciones difieren entre sí. RANGO- mayor valor-menor valor RANGO INTERCUARTÍLICO (IQR)- es la distancia entre el primer y tercer cuartil RI=P75-P25 VARIANZA- promedio del cuadrado de las distancias entre cada valor y la media Siendo la media y N la cantidad de valores DESVIACIÓN ESTÁNDAR O TÍPICA- - raíz cuadrada de la varianza COEFICIENTE DE VARIACIÓN- es la desviacióno estándar del conjunto de valores expresada como un porcentaje de la media EJEMPLO 1 Para las series: [11 12 13 14 15 16 17 18 19] [11 12 13 14 15 16 17 18 91] Calcular IQR y desviación estándar. Cuál es más resistente y por qué? EJEMPLO 2 7 SERIE 1 serie 1 serie 2 6 5 4 3 2 1 1 2 3 4 5 6 7 8 SERIE 2 1,3 1 1,5 3 1,7 5 1,9 7 1,9 7 1,7 5 1,5 3 1,3 1 MEDIDAS DE ASIMETRÍA O SESGO Una medida es simétrica cuando su mediana, su media y su moda coinciden PERIODICIDAD También es importante darse cuenta si existe algún tipo de oscilación periódica. En el siguiente gráfico se muestran las temperaturas medias en Paso de los Toros en el año 2000 30,0 25,0 20,0 15,0 Series1 10,0 5,0 0,0 1 2 3 4 5 6 7 8 9 10 11 12 ANOMALÍAS Cuando en meteorología estudiamos una variable en un período en particular es importante saber cuál es la anomalía con respecto a los valores climatológicos . La climatología para la estación de Paso de los Toros es E F 24,47 M 23,56 A 21,8 M 17,89 J 14,69 J 11,6 A 11,3 S 12,65 O 14,36 N 17,35 D 20,07 23,07 Los datos para el año 1999 son: E F 22,9 M 23,3 A 23,6 M 16,5 J 13,7 J 11,0 A 11,4 S 13,5 O 15,7 N 17,7 D 20,7 23,6 ANOMALÍA La anomalía se es la diferencia, mes a mes, de los datos de ese año en particular y la climatología (climatología-año particular). En este caso es: E F 1,57 M 0,31 A -1,8 M 1,39 J 1,04 J 0,65 A -0,05 S -0,8 O -1,29 N -0,3 D -0,63 Obs: el promedio de las anomalías suma siempre cero -0,53 VISUALIZACIÓN DE SERIES HISTOGRAMAS La superficie de cada barra es proporcional a la cantidad de veces que aparece cada valor Histograma para la serie: 1 3 4 5 4 4 2 10 3 1 0 6 3 2.5 2 1.5 1 0.5 0 1 2 3 4 5 6 7 8 9 10 VISUALIZACIÓN DE SERIES GRÁFICO DE LÍNEA (para la misma serie) 10 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 10 11 EJEMPLO Realizar un gráfico de línea y un histograma para la segunda mitad de la serie de temperaturas mínimas en Paso de los Toros. P. Toros 61-80 81-00 Ene 7,6 8,2 Feb 7,2 9,5 Mar 4,6 6,8 Abr 1,4 0,6 May 0,1 -2,3 Jun -3,3 -3,5 Jul -3,2 -3,2 Ago -2 -2,4 Set 0 -1,2 Oct 1,7 0,5 Nov 5,8 3,1 Dic 8,1 8