ESTADÍSTICA GRADO INGENIERÍA MECÁNICA Celeste Pizarro Romero Departamento de Matemática Aplicada. ESCET. URJC Curso 2018/19 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . TEMA 1 DESCRIPCIÓN DE DATOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Buscando patrones en los datos ▶ Una forma razonable de buscar hipótesis que permitan explicar algún fenómeno de la naturaleza es recolectar datos y buscar en ellos patrones de comportamiento. ▶ Pero cuando nos limitamos a observar un listado de datos, suele resultar difícil identificar ningún patrón. Por ejemplo, la lista siguiente recoge el número de huevos de todos los nidos de ñandú encontrados en el Parque Nacional de Talampaya (Argentina): 0 2 1 2 1 1 3 6 4 5 0 0 0 3 1 1 0 5 5 5 1 6 4 4 1 0 0 1 1 2 1 3 5 5 0 1 0 2 2 3 2 2 2 1 0 0 1 0 1 1 0 1 1 3 2 2 1 0 2 3 3 1 2 4 0 3 1 3 2 1 0 1 1 5 2 3 2 6 4 5 2 0 1 2 0 1 3 2 2 0 4 0 2 1 2 4 3 1 3 0 5 5 2 4 1 4 3 1 3 0 . 3 1 2 1 3 1 1 1 3 4 . . . . . 2 1 2 2 0 6 2 4 4 2 . . . . . . . . 2 2 4 1 4 1 3 1 3 0 . . . . . . . . 1 3 1 2 1 0 0 2 1 5 . . . . . . . . . . . . . . . . . . Estadística descriptiva ▶ El listado anterior contiene toda la información que nos interesa sobre el número de huevos de ñandú en Talampaya, pero el simple examen de los datos uno detrás de otro no es suficiente para identificar las características más relevantes del conjunto. ▶ Este ejemplo ilustra el hecho de que, para poder indentificar patrones de comportamiento, es preciso ordenar y resumir las observaciones. ▶ La estadística descriptiva es la exploración de conjuntos de datos mediante técnicas gráficas y numéricas con el fin extraer la información más relevante. ▶ En este tema analizaremos métodos para describir conjuntos de observaciones a fin de poder descubrir sus carácterísticas principales. ▶ El análisis es diferente dependiendo de que la variable sea cualitativa o cuantitativa, y en este último caso dependiendo de que sea discreta o continua. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Esquema ▶ Descripción de variables categóricas o cualitativa ▶ Descripción de variables cuantitativas: Distribución de frecuencias en variables discretas Distribución de frecuencias en variables continuas ▶ Resumen numérico de los datos: (Estadísticos descriptivos) ▶ ▶ Medidas de centralización Medidas de posición ▶ Medidas de dispersión ▶ ▶ ▶ Otros aspectos a tener en cuenta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Descripción de variables categóricas o cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modalidades de una variable cualitativa ▶ Recordemos que las variables categóricas o cualitativas son aquellas cuyos posibles valores o modalidades son atributos o categorías, es decir, no son números. ▶ Consideremos una población de n individuos u objetos, y una variable estadística categórica C con k valores, clases o modalidades, c1 , ...., ck ▶ Estas modalidades deben de estar bien definidas; esto supone que han de ser exhaustivas y excluyentes, es decir, todas las unidades experimentales deben pertenecer a una categoria y sólo a una de ellas. exhaustivas: que todo el mundo se tiene que ver reflejado, representado excluyentes: ningun sujeto puede estar en 2 categorías diferentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Frecuencias absolutas y relativas ▶ Podemos considerar las siguientes magnitudes: La frecuencia absoluta de la modalidad ci , que denotaremos por ni , es el número total de observaciones en esta modalidad. ▶ La frecuencia relativa de la clase c , que denotaremos por f , i i es el cociente entre la frecuencia absoluta de dicha clase y el número total de observaciones, es decir, ▶ fi = ni nº total de personas cn ojos verdes ej 2 . n población total ej 30 fi es la proporción (o tanto por uno) de observaciones que están en la clase ci . Multiplicado por 100 representa el porcentaje o tanto por ciento ( %) de la población que pertenece a esa clase. Las frecuencias relativas permiten comparar conjuntos de datos con distinto numero de observaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribución de frecuencias ▶ La distribución de frecuencias es la descripción del conjunto de clases con sus correspondientes frecuencias. ▶ Para presentar de forma ordenada la distribución de frecuencias se utilizan tablas de frecuencias, cuya estructura general es la siguiente: Modalidades negro c1 . azul .. Frec. Absolutas n1 .. . Frec. Relativas f1 = nn1 .. . cj .. . nj 2 .. . fj = nj .. . ck nk fk = nnk Total: n 1 n 2/20 ▶ La distribución de frecuencias también puede visualizarse mediante gráficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: tabla de frecuencias La siguiente tabla de frecuencias resume el tipo de residuos al que corresponden los lotes almacenados en un vertedero en 2008: Modalidad Agropecuarios Forestales Industriales Mineros Municipales Radiactivos Sanitarios Total F. absoluta (ni ) F. relativa (fi ) 6 lotes 6 hay 0.2000 6/30 de agropec 4 0.1333 4/30 5 0.1667 9 0.3000 3 0.1000 1 0.0333 2 0.0667 30 total 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Propiedades de las frecuencias ▶ Las frecuencias, tanto absolutas como relativas, son números no negativos, es decir, no es lo mismo que positivo, no negativo incluye al 0. ni ≥ 0, fi ≥ 0, para i = 1, ...k. ▶ Puesto que las modalidades son exhaustivas y excluyentes, la suma de las frecuencias absolutas de todas las modalidades es el número total de observaciones, esto es, k ∑ nj = n1 + n2 + . . . + nk = n. j=1 ▶ La suma de las frecuencias relativas de todas las modalidades es 1, o sea, k ∑ j=1 fj = f1 + . . . fk = n1 nk n1 + . . . + nk n + ... + = = = 1. n n n n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Representaciones gráficas para var cualitativas ▶ Habitualmente resulta más inmediato visualizar la distribución de frecuencias de una variable representándolos gráficamente. ▶ Los gráficos más utilizados para representar la distribución de las variables cualitativas son: Diagramas de barras Diagramas de sectores (forma de quesito) ▶ Pictogramas dibujos representativos ▶ Cartogramas mapas ▶ ▶ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagramas de barras ▶ Los diagramas de barras permiten visualizar de manera sencilla la distribución de frecuencias de una variable categórica. ▶ Para ello se representan ▶ ▶ en el eje de abscisas (eje X) las modalidades en el de ordenadas (eje Y) las frecuencias (absolutas o relativas). si se ponen 2 poblaciones diferentes siempre se ponen relativas salvo que ambos tengan los mismos datos ▶ El aspecto del gráfico es el mismo si se usan frecuencias absolutas o frecuencias relativas. Sólo cambia la escala. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: diagrama de barras ▶ Para los datos sobre el tipo de residuos, los diagramas de barras de frecuencias absolutas y relativas son, respectivamente, Diagrama de barras (frecuencias relativas) 0.20 0.15 frecuencias relativas 0 0.00 0.05 0.10 6 4 2 frecuencias absolutas 8 0.25 10 0.30 Diagrama de barras (frecuencias absolutas) Agro Fores Indus Miner Muni Radia Sani Agro Fores Indus RESIDUOS Miner Muni Radia Sani RESIDUOS ▶ Observamos que los dos gráficos sólo difieren en la escala. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagramas de barras comparativos ▶ Los diagramas de barras permiten también comparar la distribución de frecuencias en varias poblaciones. ▶ Ejemplo: La siguiente tabla de frecuencias resume el tipo de residuos al que corresponden a lotes almacenados en el vertedero durante los años 2000 y 2008: Modalidad 2000: ni 2000: fi 2008: ni 2008: fi Agropecuarios 4 0.1250 6 0.2000 Forestales 4 0.1250 4 0.1333 Industriales 6 0.1875 5 0.1667 Mineros 8 0.2500 9 0.3000 Municipales 4 0.1250 3 0.1000 Radiactivos 2 0.0625 1 0.0333 Sanitarios 2 0.0625 4 0.0667 Total 32 1 30 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: diagrama de barras comparativo ▶ El siguiente gráfico representa los datos de la tabla anterior: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagramas de barras 3D ▶ En ocasiones los diagramas de barras aparecen representados en tres dimensiones, como en el siguiente ejemplo sobre consumo de drogas: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagramas de sectores (tartas) ▶ Los diagramas de sectores (piecharts) constituyen otra herramienta gráfica para visualizar la distribución de frecuencias de una variable categórica. ▶ Para construirlo: Se divide un círculo en sectores proporcionales a las frecuencias (absolutas o relativas) de cada clase. ▶ El arco de cada porción, a , se calcula usando una regla de tres: i ▶ n −→ 3600 , 360 · ni nº de datos ni −→ ai = n nº total ▶ Los habitual, no obstante, es que para construirlo se utilice algún paquete estadístico, como por ejemplo R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: diagrama de sectores ▶ El diagrama de sectores correspondiente a los datos sobre el tipo de residuos es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Opciones gráficas de los diagramas de sectores ▶ Los diagramas de sectores pueden hacerse más vistosos dibujándolos en tres dimensiones y/o separando sus sectores para resaltar algunas características. ▶ Ejemplos: hay que poner siempre el porcentaje ▶ Los diagramas tridimensionales son más espectaculares, pero menos claros. Esto es algo que ocurre con los gráficos en general, no sólo con los de sectores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inconvenientes de los diagramas de sectores pero no son muy buenos para dar información ▶ Los diagramas de sectores son bastante populares. Por ejemplo, es muy habitual que los resultados electorales se ilustren con este tipo de gráficos. ▶ Sin embargo, estos diagramas de tarta presentan muchas limitaciones: No permiten identificar el número total de observaciones. Cuando las frecuencias de las modalidades son similares, es difícil identificar las diferencias entre ellas en los diagramas de sectores, ya que el ojo humano no evalua con los angulos con la misma facilidad que las alturas. ▶ Cuando la variable tiene más de 5 o 6 clases, el diagrama resultante es difícil de interpretar. ▶ ▶ ▶ Por todo ello es más informativo (y casi siempre preferible) utilizar diagramas de barras. ▶ Los diagramas de sectores no deben utilizarse nunca para representar variables numéricas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: inconvenientes diagramas sectores ▶ El siguiente diagrama de sectores representa los resultados de unas elecciones: Resultado electoral Democratas Otros Republicanos ▶ En este gráfico es difícil identificar cuál ha sido el partido ganador. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo (continuación) ▶ El diagrama de barras siguiente representa los mismos datos: 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 Resultado electoral Democratas Otros Republicanos ▶ En este gráfico sí permite conocer la clasificación electoral. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inconvenientes diagramas sectores (continuación) ▶ Antes de emplear uno de estos gráficos es muy importante cerciorarse de que lo que se va a representar es un todo a repartir entre varias modalidades. De lo contrario se pueden cometer errores como el de la cadena Fox, que en noviembre de 2009 publicó el siguiente gráfico: está mal porque no suma el 100% . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inconvenientes diagramas sectores (continuación) ▶ El diagrama anterior pretendía ilustrar el resultado de la siguiente encuesta electoral: opinión opinión Candidat@ favorable desfavorable NS/NC Sara Palin 70 % 21 % 9% Mike Huckabee 63 % 15 % 22 % Mitt Romney 60 % 16 % 24 % ▶ Sin embargo, lo que que transmitió, fue que un total del 193 % del electorado (????) apoyaba a estos tres candidatos republicanos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inconvenientes diagramas sectores (continuación) ▶ Lo adecuado habría sido utlizar un diagrama de barras: 0 10 20 30 40 50 60 70 GOP Candidates Huckabee Palin Romney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pictogramas ▶ Los pictogramas expresan con dibujos alusivos al tema de estudio las frecuencias de las modalidades de la variable. ▶ El escalamiento de los dibujos debe ser proporcional a la frecuencia que representa. ▶ Este tipo de gráficos se utilizan frecuentemente en los medios de comunicación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: pictogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: pictogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cartogramas ▶ En la prensa gráfica aparecen a menudo cartogramas, que representan los datos datos sobre una base geográfica, normalmente un mapa. ▶ La densidad de datos en cada zona se indica mediante sombreados, rayados, colores, etc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: cartogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La moda categoría se puede acompañar con el valor , es decir, el n1 de veces que aparece ▶ Por su naturaleza, las variables cualitativas no permiten un análisis numérico. ▶ Como resumen descriptivo de una variable categórica puede usarse la moda o clase modal, que es el dato o clase con mayor frecuencia. ▶ La moda es el dato más representativo por ser el más frecuente. ▶ La moda no es siempre única, ya que puede existir más de una clase con la máxima frecuencia. ▶ Ejemplo: Para los datos sobre los residuos almacenados en el vertedero en el año 2008 la moda es residuos mineros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Descripción de variables cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Variables cuantitativas ▶ El caracter numérico de las variables cuantitativas permite un tratamiento estadístico más elaborado. ▶ Con ellas pueden realizarse operaciones matemáticas que permiten una descripción más precisa y completa. ▶ El tratamiento es diferente según la variable sea continua o discreta. Recordemos que: Las variables discretas son aquellas cuyos posibles valores son una cantidad numerable, y no admiten un valor intermedio entre dos cualquiera de sus valores (por ejemplo el número de huevos de un nido). ▶ Las variables continuas pueden tomar cualquiera de los valores de un intervalo real (admiten cualquier cantidad de cifras decimales), y por consiguiente el cardinal de su dominio es una cantidad no numerable (por ejemplo el peso o la longitud de un lobo ibérico). ▶ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribución de frecuencias para variables discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribución de frecuencias para variables discretas ▶ Para las variables discretas, las clases en las que se agrupan los datos vienen definidas y separadas de forma natural por los valores que toma la variable, x1 , . . . , xk . ▶ Por ello la noción de distribución de frecuencias es semejante al de las variables categóricas. ▶ Sin embargo, a diferencia de lo que ocurre con los datos cualitativos, las clases vienen ordenadas de forma natural de menor a mayor. ▶ Esto permite introducir la idea de distribuciones acumuladas. ▶ La frecuencia absoluta de cada valor xi , que denotaremos por ni , es el numero de observaciones que toman dicho valor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: descripción de una variable discreta variable discreta: suelen ser numero enteros ▶ La lista siguiente recoge el número de huevos de todos los nidos de ñandú encontrados en el Parque Nacional de Talampaya: ej es discreta xk no m puedo encontrar 1,7 huevos 0 0 1 1 2 0 3 0 2 4 5 3 2 2 1 2 0 6 3 2 1 1 1 0 0 5 1 1 2 3 1 0 4 5 2 1 2 1 1 2 2 2 2 4 1 2 3 4 5 1 3 4 5 2 1 4 1 2 1 2 1 1 1 0 0 2 0 2 0 2 1 3 0 4 1 1 1 0 1 0 2 3 3 1 4 4 1 6 1 0 3 0 0 0 1 1 1 2 3 3 3 1 2 3 0 6 5 1 2 0 0 3 6 2 1 1 1 4 1 2 4 5 1 2 1 2 2 4 2 3 3 3 4 3 1 5 5 2 3 1 3 1 5 0 0 0 4 2 0 5 ▶ La población y la variable de interés son, respectivamente, ’nidos de nandúes que viven en Talampaya’ y X = ’número de huevos’. ▶ Este listado de datos contiene toda la información que nos interesa. Pero si nos limitamos a observar estos números, resultará difícil obtener una idea de las características de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo (continuación) ▶ El dominio (o rango, o recorrido) de X es {0, 1, 2, 3, 4, 5, 6}. Contando cuantas veces aparece cada uno de los valores del dominio, se obtienen las frecuencias absolutas de cada modalidad. ▶ La distribución de X puede resumirse en una tabla de frecuencias: xi ni Fi 0 26 26/150 1 42 moda 1 2 32 lo más común es 3 21 encontrar un nido de 1 4 14 huevo, 42 veces de un total de 150 5 11 6 4 Total 150 1 ▶ La tabla permite observar, por ejemplo, que lo más frecuente es encontrar nidos con 1 único huevo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Frecuencias relativas para variables discretas ▶ La frecuencia relativa del valor xi , que denotaremos por fi , es el cociente entre la frecuencia absoluta de dicho valor y el número total de observaciones, es decir, fi = ni . n ▶ La frecuencia relativa fi indica la proporción (o tanto por uno) de observaciones que toman el valor xi . Al multiplicar fi por 100 obtenemos el porcentaje o tanto por ciento ( %) de la población con valor xi . ▶ Las frecuencias relativas permiten comparar las frecuencias en conjuntos de datos con distinto numero de observaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: frecuencias relativas en variables discretas ▶ Para los datos sobre el número de huevos de los nidos de Talampaya, el total de observaciones es n = 150. Dividiendo las frecuencias absolutas por esta cantidad se obtienen las frecuencias relativas de cada valor de X: xi 0 1 2 3 4 5 6 Total ni 26 42 32 21 14 11 4 150 fi 0.173 0.280 0.213 0.140 0.093 0.073 0.027 1 ▶ Se observa, por ejemplo, que el 28 % de los nidos tienen 1 sólo huevo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Frecuencias acumuladas para variables discretas es acumulada porque existe el orden ▶ La frecuencia absoluta acumulada, que denotaremos por Ni , es el numero de elementos de la población con valor menor o igual a xi : Ni = i ∑ nj j=1 = n1 + n2 + . . . + ni = Ni−1 + ni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: frecuencias acumuladas para v discretas ▶ Siguiendo con el caso del número de huevos de ñandú por nido, las frecuencias absolutas acumuladas son: xi ni fi Ni 0 26 0.173 26 hay 68 huevos que tienen 1 42 0.280 68 26+42 hasta 1 nido 2 32 0.213 100 3 21 0.140 121 4 14 0.093 135 5 11 0.073 146 6 4 0.027 150 Total 150 1 ▶ Esto nos indica, por ejemplo, que hay un total de 121 nidos con 3 huevos de ñandú o menos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Frecuencias relativas acumuladas para v discretas ▶ La frecuencia relativa acumulada, Fi , es el tanto por uno de los elementos de la población que toman un valor de la variable menor o igual que xi : Ni Fi = n = n1 + n2 + . . . + ni n = f1 + f2 + . . . + fi = i ∑ fj j=1 ▶ Las frecuencias relativas acumuladas se calculan dividiendo las frecuencias relativas absolutas entre el número total de datos, o bien sumando las frecuencias relativas de todos los valores menores o iguales a cada xi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: frecuencias relativas acumuladas ▶ Para el caso del número de huevos de ñandú por nido en Talampaya, la tabla de frecuencias completa es xi ni fi Ni Fi porcentaje 0 26 0.173 26 0.173 1 42 0.280 68 0.453 2 32 0.213 100 0.667 80,7% tiene hasta 3 3 21 0.140 121 0.807 elhuevos 4 14 0.093 135 0.900 5 11 0.073 146 0.973 6 4 0.027 150 1 Total 150 1 ▶ Se observa, por ejemplo, que el 66.7 % de los nidos de ñandú tienen 2 huevos o menos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribución de frecuencias en variables discretas ▶ En general, la distribución de frecuencias de una variable discreta está formada por el conjunto de clases y sus frecuencias correspondientes. ▶ Se puede presentar de forma ordenada en una tabla estadística: Valor F. Abs. x1 .. . n1 .. . xj .. . nj .. . xk nk Total n F. Rel. n1 f1 = n .. . nj fj = n .. . nk fk = n 1 F. Abs. Acum. Nj = n1 + . . . + nj .. . F. Rel. Acum N1 F1 = = f1 n .. . Nj Fj = = fj n .. . Nk = n Fk = 1 N1 = n1 .. . ▶ Observación: Las frecuencias acumuladas (tanto absolutas como relativas) sólo se calculan sobre variables cuantitativas. No tiene sentido hacerlo para las variables categóricas.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Propiedades de las frecuencias ▶ Las frecuencias son cantidades no negativas, es decir, verifican ni ≥ 0, fi ≥ 0, Ni ≥ 0, Fi ≥ 0, para i = 1, . . . , k. ▶ La suma de todas las frecuencias absolutas es n: k ∑ nj = n1 + n2 + . . . + nk = n. j=1 ▶ La suma de las frecuencias relativas de todos los valores es 1: k ∑ j=1 fj = f1 + . . . fk = n1 nk n1 + . . . + nk n + ... + = = = 1. n n n n ▶ Las frecuencias acumuladas (absolutas o relativas) son no decrecientes, esto es, satisfacen Ni ≤ Ni+1 y Fi ≤ Fi+1 , para i = 1, . . . , k − 1. ▶ La frecuencia absoluta acumulada de la última clase es Nk = n. ▶ La frecuencia relativa acumulada de la última clase es Fk = 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Representación gráfica de variables discretas ▶ La distribución de frecuencias de una variable discreta puede representarse mediante diagramas de barras, que transmiten una una idea visual inmediata sobre las principales características de los datos. ▶ Ejemplo: 0.25 0.20 0.15 frecuencias relativas 0.00 0.05 0.10 30 20 10 0 frecuencias absolutas 40 0.30 50 0.35 La representación gráfica del número de huevos de ñandú de los nidos de Talampaya es la siguiente: 0 1 2 3 4 5 6 0 1 2 numero de huevos 3 4 5 6 numero de huevos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribución de frecuencias para variables continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribución de frecuencias para variables continuas ▶ El análisis de las variables cuantitativas continuas es más complejo que el de las discretas. ▶ Las categorías ya no vienen dadas de forma natural por la variable, sino que tienen que elegirse. ▶ El primer paso es dividir el dominio de la variable en clases o intervalos que no se solapen y cubran todo el rango. ▶ Al punto central de cada uno de estos intervalos lo llamaremos marca de clase, y lo denotaremos por ci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribución de frecuencias para variables continuas ▶ Una vez hecha esta división en clases se definen las mismas frecuencias que para las variables discretas. ▶ En el caso continuo, la forma de la tabla estadística de frecuencias es la siguiente: Clase [l0 , l1 ] .. . (lj−1 , lj ] . .. (lk−1 , lk ] Total M clase c1 .. . cj . .. ck F Abs n1 .. . nj . .. nk n F Rel f1 = n1 /n .. . fj = nj /n . .. fk = nk /n 1 F Abs Ac N1 = n1 .. . Nj = Nj−1 + nj . .. Nk = n . . . . . . . . . . . . . . F Rel Ac F1 = f1 .. . Fj = Nj /n . .. Fk = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: distribución de variables continuas frec abs frec rel ▶ La siguiente tabla resume los pesos registrados para los ejemplares de lobo ibérico de un zoológico: Intervalo ci ni fi Ni [40, 45] 42,5 3 0,1428 3 (45, 50] 47,5 2 0,0952 5 (50, 55] 52,5 7 0,3333 12 (55, 60] 57,5 3 0,1428 15 (60, 65] 62,5 6 0,2857 21 Total 21 1 marca de clase (representante) Fi 0,1428 0,2381 0,5714 0,7143 1 no podemos calcular la media exacta porque no sabemos el peso exacto de cada uno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Representación gráfica de variables continuas ▶ Para visualizar gráficamente la distribución de variables continuas se utilizan histogramas, que representan las frecuencias mediante áreas. ▶ Un histograma se construye a partir de la tabla estadística, mediante rectángulos cuyas bases equivalen a los intervalos. El área de cada rectángulo es proporcional a la frecuencia (absoluta o relativa) de la clase. ▶ A diferencia del diagrama de barras, los rectángulos verticales se representan contiguos para reflejar la idea de que la variable es continua. Esto incluye la posibilidad de que el histograma tenga clases vacias (es decir, con altura 0). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: histograma ▶ El siguiente histograma representa los pesos de los lobos Histograma 4 2 0 frecuencia absoluta 6 8 ibéricos de la tabla anterior: 40 45 50 55 60 65 peso lobo ibérico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Elección del número de clases o intervalos ▶ En algunas ocasiones la información sobre una variable continua se proporciona ya resumida en una tabla de frecuencias con clases o intervalos fijados por quién recogió los datos. ▶ Pero lo más habitual es que se disponga de la lista completa de observaciones de la variable continua. En tales casos, para realizar un análisis estadístico deben agruparse estos valores en intervalos. Para ello hay que elegir el numero de intervalos (k). ▶ El número de intervalos debe ser tal que refleje la información más relevante sobre la variable. ▶ ▶ Si se toman muy pocas clases, se pierde precisión. Si se toman demasiadas clases, se pierde visión sobre las características de la variable. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: elección del número de clases ▶ Los siguientes histogramas, que representan las notas de estadística de los alumnos de un curso, ilustran esta idea: Notas de Estadistica Notas de Estadistica Notas de Estadistica 40 80 20 Frequency 40 Frequency 20 10 50 100 Frequency 200 150 100 0 2 4 6 notas 8 10 0 2 4 6 notas 8 10 0 0 0 50 0 Frequency 60 30 250 150 300 350 Notas de Estadistica 0 2 4 6 8 10 0 2 4 notas 6 8 10 notas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: elección del no de clases (continuación) ▶ En el primero de los histogramas se ha divido el rango de las notas (que va de 0 a 10) en cinco intervalos: 200 150 0 50 100 Frequency 250 300 350 Notas de Estadistica 0 2 4 6 8 10 notas ▶ Obviamente 5 clases no son suficientes, ya que ni siquiera permite saber cuántos alumnos han aprobado y cuántos han suspendido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: elección del no de clases (continuación) ▶ El segundo histograma, con 10 clases, refleja perfectamente la distribución de las notas: 100 Frequency [4, 5) [5, 6) esta forma sería la correcta ya que las personas que tienen un 5 irían con las personas aprobadas 50 la persona que ha sacado un 5 iría con los suspensos por lo que no es correcto 0 ( 4, 5] (5, 6] 150 Notas de Estadistica 0 2 4 6 8 10 notas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: elección del no de clases (continuación) ▶ El tercer gráfico, con 20 intervalos, es más confuso que el anterior. 40 0 20 Frequency 60 80 Notas de Estadistica 0 2 4 6 8 10 notas ▶ No obstante este gráfico puede resultar útil, por ejemplo, para un profesor que quiera decidir a partir de qué nota poner sobresalientes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: elección del no de clases (continuación) ▶ El último de los histogramas, tiene 50 clases. 20 0 10 Frequency 30 40 Notas de Estadistica 0 2 4 6 8 10 notas ▶ En este gráfico se observan muchos picos poco relevantes que no permiten apreciar lo más importante de la distribución de las notas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Elección del número de clases (continuación) ▶ Es recomendable ayudarse de histogramas para elegir un número de clases que resulte apropiado. ▶ Aunque la información gráfica es mucho más fiable a la hora de fijar el número de intervalos, existen distintas reglas empíricas para elegir el número de intervalos. ▶ Una de las más utilizadas es la regla de Sturges, que consiste en elegir el número de clases, k, de la forma siguiente: √ si n no es muy grande, n k≃ 1 + 3,3 log(n) si n es muy grande. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Elección del número de clases (continuación) ▶ Según la regla de Sturges, por ejemplo, si el numero de observaciones es n = 100, agruparemos las √ observaciones en k = 100 = 10 intervalos. ▶ Sin embargo, si tenemos n = 1000000, resultará casi imposible √ trabajar con k = 1000000 = 1000 intervalos, por lo que es más razonable elegir k = 1 + 3,3 log(1000000) ≃ 21 clases. ▶ ▶ La regla de Sturges es la que está implementada por defecto para determinar el número de clases en la mayor parte de los paquetes estadísticos, incluyendo R-commander. ▶ No obstante, en muchas ocasiones, como en la del ejemplo de las notas de Estadística, hay elecciones mucho más adecuadas, que pueden determinarse utilizando el sentido común y ayudándose de representaciones gráficas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . En las comparaciones, la escala es importante ▶ Estos dos histogramas paracen a simple vista bastante Histograma 10 Histograma 6 4 frecuencia absoluta 4 0 0 2 2 frecuencia absoluta 6 8 8 diferentes: 40 45 50 55 60 65 35 40 45 peso lobo ibérico 50 55 60 65 70 peso lobo ibérico ▶ Sin embargo, ambos representan el mismo conjunto de datos: los pesos de los lobos ibéricos del zoo. Además ambos histogramas tienen 5 intervalos. Tienen distinto aspecto porque las escalas son diferentes. ▶ Para poder comparar varios gráficos, deben tener la misma escala. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Patrones de distribución más comunes ▶ La forma del histograma refleja muchas propiedades de la variable estadística a la que se refiere: simetría, número de modas, apuntamiento, etc. ▶ Los patrones más frecuentes de histogramas son Unimodal simétrico (por ejemplo peso o altura) Bimodal simétrico (por ejemplo peso en poblaciones mixtas, o pesos medidos en kilos y en libras) ▶ Unimodal asimétrico a la derecha (por ejemplo ingresos o gastos) ▶ Unimodal asimétrico a la izquierda (por ejemplo esperanza de vida por países) ▶ ▶ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gráficos: patrones de distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gráfico: distribución unimodal simétrica Distribución unimodal simétrica 2000 es simestrica 1000 500 0 Frequency 1500 moda 30 40 50 60 x . 70 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gráfico: distribución bimodal simétrica Distribución bimodal simétrica 2000 1500 1000 500 0 Frequency 2500 3000 3500 hay simetria pero también hay 2 modas 30 40 50 60 70 80 90 100 ej peso entre escarabajos machos y hembras x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gráfico: distribución asimétrica hacia la derecha Distribución asimétrica a la derecha es simetrica hacia la derecha 1000 1500 2000 2500 3000 3500 Frequency Ejemplo sueldos de una gran empresa 0 500 frecuencia= nº personas 0 5 sueldo anual 10 15 x . 20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gráfico: distribución asimétrica hacia la izquierda 1500 1000 500 0 Frequency 2000 2500 Distribución asimétrica a la izquierda 50 55 60 65 70 x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagramas de puntos ▶ Cuando se tienen pocos datos de una variable continua, puede ser útil representarlos mediante un simple diagrama de puntos. ▶ Supongamos por ejemplo que las longitudes de las pirañas de un banco de peces son 8, 17, 3, 10 y 12 cm. Estos datos pueden representarse mediante el siguiente diagrama de puntos: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Otros gráficos para variables cuantitativas ▶ Los datos cuantitativos también pueden representarse mediante otros diagramas, como pictogramas o cartogramas. ▶ Las posibilidades de representación gráfica dependen del tipo de variable que se esté analizando. ▶ Uno de los objetivos es que los gráficos faciliten la interpretación de los datos. ▶ En las siguientes páginas aparecen ejemplos de pictogramas y cartogramas para variables numéricas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: pictogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: pictogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: cartogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: cartogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Variables discretas que se asemejan a continuas ▶ Cuando la variable que se está analizando es discreta pero tiene un rango muy amplio (es decir, toma muchos valores distintos) es conveniente agrupar los datos del mismo modo que para las variables continuas. ▶ Un ejemplo de esta situación es la edad de una población heterogénea expresada en años. ▶ En tales casos, el histograma es un gráfico más adecuado para representar la variable que el diagrama de barras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resumen numérico de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Resumen numérico de conjuntos de observaciones ▶ Si los datos son cuantitativos, es conveniente complementar la información visual proporcionada por el análisis gráfico con algunas medidas numéricas que proporcionen una idea sobre el centro de los datos, la concentración de éstos y otros rasgos de la distribución. ▶ Estas medidas numéricas que se calculan a partir de los datos y resumen parte de su comportamiento, reciben el nombre de estadísticos. ▶ Vamos a analizar estadísticos que resumen numéricamente las siguientes características de una distribución: la tendencia central de los datos (medidas de centralización), los datos que ocupan ciertas posiciones (medidas de posición), ▶ la variabilidad con respecto al centro (medidas de dispersión). ▶ ▶ ▶ La utilización de estos estadísticos permite formarse una idea bastante fidedigna del comportamiento de un conjunto de grande de datos a partir de unas pocas medidas que concentran mucha información. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Medidas de centralización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Medidas de centralización ▶ La descripción más elemental de un conjunto de datos consiste en especificar su centro. ▶ El concepto de centro se puede definir de diferentes formas. ▶ Vamos a analizar los siguientes estadísticos de centralización: Media Mediana ▶ Moda ▶ Media recortada ▶ ▶ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Media ▶ La idea de media aritmética o promedio formaliza el concepto intuitivo de punto de equilibrio o centro de gravedad de los datos. ▶ Dado un conjunto de observaciones, x1 , . . . . . . , xn , su media, que denotaremos por x, es la suma de todos los datos dividida por el número total de datos. ▶ La definición formal de media es 1∑ xi n n x= i=1 es decir x= x1 + · · · + xn n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Número medio de huevos en Talampaya ▶ Para calcular la media del número de huevos en Talampaya 0 2 1 2 1 1 3 6 4 5 0 0 0 3 1 1 0 5 5 5 1 6 4 4 1 0 0 1 1 2 1 3 5 5 0 1 0 2 2 3 2 2 2 1 0 0 1 0 1 1 0 1 1 3 2 2 1 0 2 3 3 1 2 4 0 3 1 3 2 1 0 1 1 5 2 3 2 6 4 5 2 0 1 2 0 1 3 2 2 0 4 0 2 1 2 4 3 1 3 0 5 5 2 4 1 4 3 1 3 0 3 1 2 1 3 1 1 1 3 4 2 1 2 2 0 6 2 4 4 2 2 2 4 1 4 1 3 1 3 0 1 3 1 2 1 0 0 2 1 5 0 + 0 + 1 + 1 + 2 + 0 + 3 + 0 + 2 + 4 + 5 + ...... + 4 + 2 + 0 + 5 150 ▶ ¿Hay una forma menos tediosa de calcularla? x̄ = . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Media de una variable discreta ▶ Cuando los datos son discretos y las observaciones se repiten, podemos disponerlos en una tabla de frecuencias, X ni fi x1 n1 f1 . . . . . . . . . xk nk fk y usar la fórmula 1∑ x1 n1 + · · · + xk nk xi ni = , n n k x= i=1 o bien la fórmula equivalente, x= k ∑ xi fi = x1 f1 + · · · + xk fk . i=1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: media de una variable discreta ▶ Para el ejemplo de los nidos de Talampaya, xi 0 1 2 3 4 5 6 Total ni 26 42 32 21 14 11 4 150 fi 0.173 0.280 0.213 0.140 0.093 0.073 0.027 1 Ni 26 68 100 121 135 146 150 Fi 0.173 0.453 0.667 0.807 0.900 0.973 1 el número medio de huevos de ñandú por nido es x= 0 × 26 + 1 × 42 + 2 × 32 + .... + 6 × 4 = 2,027. 150 que también puede calcularse como x = 0 × 0,173 + 1 × 0,280 + 2 × 0,213 + .... + 6 × 0,027 = 2,027. ▶ Por tanto, en promedio, los nidos tienen 2.027 huevos. Obsérvese que éste no es uno de los valores posibles de la variable. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Media de una variable continua ▶ Si los datos son continuos y no disponemos de sus valores originales, sino sólo de una tabla de frecuencias por intervalos del tipo Intervalos ci ni [lo , l1 ] c1 n1 . . . . . . . . . [lk−1 , lk] ck nk podemos usar la fórmula aproximada 1∑ c1 n1 + · · · + ck nk ci ni = , n n k x≃ i=1 o bien la fórmula equivalente, x≃ k ∑ ci fi = c1 f1 + · · · + ck fk . i=1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Media de una variable continua (continuación) ▶ La fórmula aproximada c1 n1 + · · · + ck nk 1∑ ci ni = , x≃ n n k i=1 sustituye cada dato (desconocido) por la marca de clase (o punto central) del intervalo al que pertenece. ▶ La media obtenida usando esta fórmula es una aproximación que, en general, no coincide con la verdadera media de los datos, aunque será un número cercano al promedio si los intervalos no son excesivamente amplios. ▶ Al aumentar la amplitud de las clases se pierde precisión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: media de una variable continua ▶ Vamos a calcular la media aproximada de los pesos de los lobos ibéricos (medidos en kilos) resumidos en la tabla siguiente; Intervalo ci ni fi Ni Fi [40, 45] 42,5 3 0,1428 3 0,1428 (45, 50] 47,5 2 0,0952 5 0,2381 (50, 55] 52,5 7 0,3333 12 0,5714 (55, 60] 57,5 3 0,1428 15 0,7143 (60, 65] 62,5 6 0,2857 21 1 Total 21 1 ▶ Puesto que los datos están agrupados, usaremos las marcas de clase (ci ) para calcular una aproximación a la media: 1∑ 42,5 × 3 + 47,5 × 2 + . . . . . . + 62,5 × 6 ci ni = = 54,1667 kg n 20 k x≃ i=1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Linealidad de la media ▶ Si a todas las observaciones de una variable se les suma una misma cantidad, la media de los nuevos datos es la media de las observaciones originales más esa cantidad, es decir, x + b = x + b. Ejemplo: El sueldo medio de los trabajadores de cierta reserva natural es de 1655 euros por mes. Si el gobierno decide aumentar en 44 euros el salario de todos sus empleados, ¿cuál será el sueldo medio de los trabajadores a partir de ese momento? (Solución: 1699 euros) ▶ Si se multiplican todas las observaciones por una misma cantidad, la media de los nuevos datos queda multiplicada por la misma cantidad, esto es ax = a x. Ejemplo: En una muestra de 20 plantas, el peso medio ha resultado ser 2.3 kilos. ¿Cuál será la media de los pesos medidos en gramos de estas mismas plantas? (Solución: 2300 gramos) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Linealidad de la media (continuación) ▶ Juntando las dos propiedades anteriores, deducimos que, si Y es una transformación lineal de X, esto es, si Y = a + bX, entonces la media de Y es y = a + bx. Es decir, la media es un operador lineal. ▶ Ejemplo: En cierta localidad, la temperatura media durante el mes de agosto ha sido de 14 o C. ¿Cuál será la temperatura media en la localidad durante el mismo periodo si ésta se mide en o F? Solución: 57.2 o F. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Inconvenientes de la media ▶ La media es muy sensible a la presencia de valores atípicos (tambien llamados outliers). Puesto que todas las observaciones intervienen en su cálculo, cuando hay alguna observación extrema la media se desplace en esa dirección. Se dice por ello que la media no es robusta. Esta falta robustez provoca paradojas como esta: por muy extraño que pueda parecer, la gran mayoría de las personas tiene un número de piernas superior a la media... ▶ En las distribuciones muy asimétricas, no es recomendable usar la media como medida central. ▶ Para variables discretas el valor de la media puede no pertenecer al conjunto de valores posibles de la variable. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mediana ▶ La mediana es una medida de centralización que divide en dos mitades (dos grupos con la misma cantidad de elementos) el conjunto de datos ordenados de menor a mayor. ▶ Es decir, la mediana es un punto que deja el 50 % de las observaciones por debajo de él y el otros 50 % por encima de sí: si en estadística salen () quiere decir que los datos ya están ordenados ▶ Si queremos saber, por ejemplo, si una jirafa está entre las más altas o entre las más bajas, debemos comparar su altura con la mediana, y no con la media. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Muestra ordenada ▶ Para calcular la mediana, en primer lugar hay que ordenar los datos de menor a mayor. ▶ Dado un conjunto de datos, x1 , x2 · · · , xn , suele utilizarse la notación x(1) , x(2) , · · · , x(n) , para designar las mismas observaciones ordenadas de mayor menor. ▶ Es decir, x(1) es el dato más pequeño, x(2) es el siguiente, y así hasta x(n) que es la observación máxima. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cálculo de la mediana ▶ Observemos que ▶ Cuando el número de observaciones es una cantidad impar, uno de los datos está exactamente en el centro: la observación que ocupa la posición (n + 1)/2. Este número central es la mediana. Ejemplo: Para los datos 6, 12, 14, 20, 45 ▶ la mediana es 14. Cuando la cantidad de datos es par, hay dos observaciones centrales: las observaciones que están en las posiciones n/2 y n/2 + 1. En este caso se toma como mediana el promedio o semi-suma de las dos observaciones centrales. Ejemplo: Para los datos 6, 12, 14, 20, 45, 61 la mediana es el promedio de 14 y 20, es decir, 17. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Definición de la mediana ▶ La mediana de un conjunto de datos, x1 , x2 , . . . , xn , se define como Medx = x n+1 , ( 2 ) si n es impar x n + x( n +1) 2 (2) , 2 si n es par . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: mediana de datos discretos ▶ Retomemos los datos sobre número de huevos de ñandú en los % que deja x debajo nidos de Talampaya: el dato xi ni fi Ni Fi 0 26 0.173 26 0.173 1 42 0.280 68 0.453 es el primer dato que 2 32 0.213 100 0.667 deja x debajo al 50% x lo k es la mediana 3 21 0.140 121 0.807 4 14 0.093 135 0.900 5 11 0.073 146 0.973 6 4 0.027 150 1 Total 150 1 ▶ Observamos que la mediana de estos datos es 2 huevos, ya que 2 es el primer valor con una frecuencia relativa acumulada mayor o igual que 0,5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mediana de datos agrupados ▶ Cuando no se dispone del conjunto de las observaciones, sino sólo de una tabla estadística con datos agrupados en clases, no se puede determinar la mediana con exactitud. ▶ En estos casos, lo que sí puede asegurarse es que la mediana está en el primero de los intervalos con una frecuencia relativa acumulada igual o mayor que 0.5. Existen fórmulas aproximadas, basadas en interpolación, para calcular la mediana en estos casos. Ejemplo: La mediana de pesos de los lobos ibéricos está en el intervalo (50, 55], que es el primero que verifica Fi ≥ 0,5: Intervalo [40, 45] (45, 50] (50, 55] (55, 60] (60 ,65] ci 42,5 47,5 52,5 57,5 62,5 ni 3 2 7 3 6 21 fi 0,1428 0,0952 0,3333 0,1428 0,2857 1 Ni 3 5 12 15 21 . Fi 0,1428 0,2381 0,5714 0,7143 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Propiedades de la mediana ▶ Las observaciones atípicas tienen un efecto mucho menor en la mediana que en la media, ya que la mediana no depende de los valores que toma la variable, sino del orden de las mismas. Se dice por ello que la mediana es una medida de centralización robusta. Ejemplo: vamos a comparar las medias y medianas de los conjuntos de datos: X ∼ 2, 5, 7, 8, 13 Y ∼ 2, 5, 77, 8, 13 La muestra Y puede ser el resultado de un simple error al teclear los datos de X. Las medias de X e Y son muy diferentes: x = 7, y = 21; sin embargo sus medianas apenas difieren: Medx = 7, Medy = 8. ▶ Cuando la distribución es asimétrica, la mediana es más apropiada como medida de posición central que la media. ▶ Las propiedades matemáticas de la mediana son más complicadas que las de la media, y por eso en inferencia estadística es más frecuente utilizar la media. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comparación de media y mediana ▶ Es preferible resumir el centro de una distribución usando tanto la media como la mediana. ▶ La comparación entre ellas, además, aporta información sobre la forma de la distribución, ya que en general: Si la distribución es simétrica alrededor del centro, x ≃ Medx Si la distribución es asimétrica a la derecha, x >> Medx ▶ Si la distribución es asimétrica a la izquierda, x << Med x ▶ ▶ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Media-mediana: distribución simétrica ▶ Cuando la distribución es bastante simétrica, media y mediana toman valores muy próximos entre sí: ▶ Si la distribución fuese perfectamente simétrica, la media y la mediana coincidirían exactamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Media-mediana: asimetría a la derecha ▶ Si la distribución es asimétrica hacia la derecha, hay una pequeña proporción de datos que son mucho mayores que la mayoría. ▶ Estos datos tiran de la media hacia arriba, provocando que ésta sea considerablemente mayor que el valor que la mediana: COLA A LA DERECHA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Media-mediana: asimetría a la izquierda ▶ Las distribuciones asimétricas hacia la izquierda tienen una pequeña proporción de datos mucho menores que la mayoría que tiran hacia abajo de la media. ▶ Por ello, en estos casos la media es bastante menor la mediana: COLA A LA IZQUIERDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Moda ▶ La moda es el valor de la variable que se repite con mayor frecuencia. Es una medida de centralización muy fácil de calcular. ▶ La moda no es siempre única, ya que puede existir más de un valor con la máxima frecuencia. ▶ La moda es una medida informativa tanto en variables categóricas como para en cuantitativas discretas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: moda de una variable discreta ▶ Para los datos sobre número de huevos de ñandú por nido, la moda es 1 huevo: xi 0 1 2 3 4 5 6 Total ni 26 42 32 21 14 11 4 150 fi 0.173 0.280 0.213 0.140 0.093 0.073 0.027 1 Ni 26 68 100 121 135 146 150 Fi 0.173 0.453 0.667 0.807 0.900 0.973 1 ▶ Habíamos visto que el centro de gravedad (la media) es 2.027 huevos, y la mediana (el valor central) es 2. La moda aporta información complementaria: lo más frecuente en Talampaya en encontrar nidos de ñandú con 1 huevo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Clase modal de una variable continua ▶ En el caso de las variables continuas la moda no aporta ninguna información, ya que lo habitual es que no existan datos repetidos (y todos los valores sean modas) o que si se repiten sea debido al redondeo (en cuyo caso la moda no es relevante). ▶ Para variables continuas lo que sí tiene interés es el intervalo o clase modal, es decir, el intervalo de frecuencia más alta. ▶ Ejemplo: para los pesos de los lobos ibéricos, la clase modal es (50,55]: Intervalo ci ni fi Ni Fi [40, 45] 42,5 3 0,1428 3 0,1428 (45, 50] 47,5 2 0,0952 5 0,2381 (50, 55] 52,5 7 0,3333 12 0,5714 (55, 60] 57,5 3 0,1428 15 0,7143 (60 ,65] 62,5 6 0,2857 21 1 Total 21 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Media recortada no entra ▶ Una forma de mejorar la falta de robustez de la media consiste en moderar el efecto de los datos atípicos en el cálculo de la media. ▶ La media recortada al α por ciento es la media de los datos que quedan después de eliminar el α por ciento de las observaciones más grandes y el α por ciento de las más pequeñas. ▶ Por ejemplo, la media recortada al 10 % en un conjunto de 50 datos vendrá dada por 1 ∑ x(i) 40 45 i=6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: media recortada ▶ Consideremos de nuevo los datos sobre el número de huevos de ñandú de los nidos del Parque Nacional Talampaya: xi ni fi Ni Fi 0 26 0.173 26 0.173 1 42 0.280 68 0.453 2 32 0.213 100 0.667 3 21 0.140 121 0.807 4 14 0.093 135 0.900 5 11 0.073 146 0.973 6 4 0.027 150 1 Total 150 1 ▶ La media recortada al al 20 % para estos datos es 1 ∑ x(i) = 1,8 huevos. 90 120 i=31 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Medidas de posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Percentiles te posiciona dentro de la población ▶ La media, mediana y moda son medidas de la posición central de los datos, pero hay otras posiciones que pueden ser de interés al analizar la distribución. De manera genérica a tales observaciones se les da el nombre de cuantiles. ▶ Los percentiles dividen en conjunto de observaciones en 100 partes del mismo tamaño. ▶ El percentil de orden k, que denotaremos por Pk , es la observación que deja por debajo de sí el k % de los datos. ▶ Por ejemplo, si la altura de una jirafa está en el percentil 80, significa que el 80 % de las jirafas miden menos que ella. O lo que es lo mismo, que el 20 % son más altas que ella. ▶ Para calcular Pk se toma la primera observación con una frecuencia relativa acumulada mayor o igual que k/100. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: percentiles ▶ Para la distribución del número de huevos en Talampaya, xi ni 0 26 1 42 2 32 3 21 4 14 5 11 6 4 Total 150 se tiene, por ejemplo, que fi 0.173 0.280 0.213 0.140 0.093 0.073 0.027 1 Ni 26 68 100 121 135 146 150 Fi 0.173 0.453 0.667 0.807 0.900 0.973 1 P10 = 0, P20 = 1, P90 = 4, P99 = 6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Algunas utilidades de los percentiles ▶ Normalmente las personas que tienen hijos suelen estar familiarizas con los percentiles, ya que los pediatras les indican los percentiles de la altura, el peso u otras magnitudes del niño. Por ejemplo, si la altura de un niño está en el percentil 69, sus padres saben que el 69 % de los niños de su edad miden menos que él. La OMS publica tablas de referencia para cada segmento de edad. Las referencias son distintas para niños y niñas. ▶ También se usan los percentiles para medir los resultados de los tests de inteligencia. Si una persona está en el percentil 85 significa que sólo el 15 % de la población le supera en esa habilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cuartiles %miN 25% Q1 Q2 50% Q3 MAX 75% ▶ Los cuartiles son los percentiles de orden 25, 50 y 75: El primer cuartil, que denotaremos por Q1 , es la observación que deja por debajo de sí el 25 % de los datos (Q1 = P25 ). ▶ El segundo cuartil, que denotaremos por Q , es la 2 observación que deja por debajo de sí el 50 % de los datos, es decir, la mediana (Q1 = P50 = Med). ▶ El tercer cuartil, que denotaremos por Q , es la observación 3 que deja por debajo de sí el 75 % de los datos (Q3 = P75 ). ▶ ▶ Q1 , Q2 y Q3 dividen el conjunto de datos ordenados en 4 subconjuntos con la misma cantidad de observaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cuartiles (continuación) ▶ Por ejemplo, los cuartiles del conjunto de datos 114, 125, 114, 124, 142, 152, 133, 113, 127, 135, 122, 127, 185, 134, 147. son Q1 = 122, Q2 = 130, y Q3 = 142, como se aprecia en el siquiente esquema: ▶ ¿Qué información proporcionan los cuartiles? Supongamos por ejemplo se está analizando la longitud de las hojas de una planta, y que sus cuartiles son Q1 = 10 cm, Q2 = 13 cm, y Q3 = 30 cm. Con esto sabemos por ejemplo que una hoja de 8 cm está entre el 25 % de las más pequeñas. Una de 15 cm está entre la mitad más grande pero por lo menos un 25 % de las hojas son mayores que ella. Una hoja de 22 cm está entre el 25 % de las más grandes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: cuartiles ▶ Para la distribución del número de huevos en Talampaya, xi 0 1 2 3 4 5 6 Total ni 26 42 32 21 14 11 4 150 fi 0.173 0.280 0.213 0.140 0.093 0.073 0.027 1 Ni 26 68 100 121 135 146 150 Fi 0.173 0.453 0.667 0.807 0.900 0.973 1 se tiene que Q1 = 1, Q2 = 2, Q3 = 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¿Por qué es importante medir la dispersión? ▶ Una vez localizado el centro de los datos es importante analizar si las observaciones están muy concentradas alrededor de ese centro o si por el contrario están alejadas de él. ▶ Imaginemos por ejemplo dos bancos de pirañas, A y B. Las longitudes de las pirañas del banco A son 11, 7, 10, 13 y 9 cm, y las del banco B, 8, 17, 3, 10 y 12 cm. Aunque en ambos bancos tanto la media como la mediana son 10 cm, las pirañas del banco A tienen longitudes mucho más concentradas en torno a 10 que las del banco B: Por ello, la longitud central de 10 cm es mucho más representativa del conjunto de pirañas del banco A que de las del banco B. ▶ Este ejemplo sugiere que es conveniente contar con estadísticos que midan cómo de cercanos o de alejados están los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estadísticos de dispersión ▶ Las medidas de dispersión proporcionan información sobre del grado de separación de las observaciones alrededor su centro. ▶ Analizaremos las siguientes medidas de dispersión: Amplitud o rango.AMPLITUD: RECORRIDO DEL MIN AL MAX Varianza y desviación típica. ▶ Cuasi-varianza y cuasi desviación típica. ▶ Recorrido intercuartílico. ▶ Coeficiente de variación. ▶ ▶ ▶ Las medidas de dispersión son siempre no negativas. Cuando los datos no presentan ninguna variabilidad (es decir, cuando son todos iguales) toman el valor 0, y cuanto más separadas estén las observaciones, mayor será su valor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Amplitud, recorrido o rango ▶ La forma más elemental de evaluar la dispersión de un conjunto de observaciones consiste en calcular la amplitud de su dominio, es decir la diferencia entre el mayor y el menor de los datos. ▶ Dado un conjunto de datos, x1 , · · · , xn , definimos su amplitud, o recorrido o rango como Ax = máximo(x1 , x2 , . . . , xn )−mínimo(x1 , x2 , . . . , xn ) = x(n) −x(1) ▶ Ejemplo: Para los datos sobre el número de huevos de los nidos de Talampaya el rango o amplitud es A = x(150) − x(1) = 6 − 0 = 6 huevos. ▶ El rango tiene la ventaja de que es fácil de calcular y sus unidades son las mismas que las de las observaciones originales. ▶ Su principal inconveniente es su enorme falta de robustez. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Varianza y desviación típica ▶ Una manera natural de medir la dispersión alrededor del centro consiste en promediar las distancias de cada una de las observaciones a la media. ▶ Como tales distancias, no podemos tomar las diferencias entre las observaciones y la media (xi − x), ya que estas son unas positivas y otras negativas, y al hacer la media se compensan entre sí. ▶ Para evitar este problema, lo que se hace es tomar los cuadrados de estas diferencias. De este modo los signos no se compensan unos con otros. ▶ Formalmente, dado un conjunto de datos, x1 , · · · , xn , definimos su varianza, s2x , como la media de los cuadrados de las diferencias entre las observaciones y su media, es decir, 1∑ (xi − x)2 n n s2x = i=1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Varianza y desviación típica (continuación) ▶ Una fórmula equivalente para la varianza es la siguiente 1 s2x = n n ∑ x2i − x2 i=1 ▶ Es decir, la varianza es la media de los cuadrados de las observaciones menos el cuadrado de su media. Con esta segunda fórmula resulta más sencillo realizar los cálculos. ▶ Las unidades de la varianza son el cuadrado de las unidades de las observaciones. Por ejemplo, si las observaciones se miden en metros, la varianza vendrá dada en metros2 . ▶ Para obtener una medida de dispersión con las mismas unidades que las observaciones basta con tomar la raíz cuadrada de la varianza. La desviación típica es la raíz cuadrada positiva de la varianza, es decir √ sx = + s2x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: varianza y desviación típica ▶ Consideremos las edades 1, 4, 5, 5, 7 y 8 años. ▶ Para hallar la varianza de estas observaciones, el primer paso es calcular su media: x= 1+4+5+5+7+8 = 5 años. 6 ▶ Podemos calcular la varianza como 1∑ (1 − 5)2 + (4 − 5)2 + . . . + (8 − 5)2 2 (xi − x) = = 5 años2 , n 6 n s2x = i=1 o bien mediante la fórmula equivalente 1∑ 2 2 12 + 42 + 52 + 52 + 72 + 82 2 xi −x = −5 = 30−25 = 5 años2 , n 6 n s2x = i=1 ▶ Por tanto, la desviación típica es sx = √ s2x = . √ . . . . MEDIA AL CUADRADO 5 = 2,236 años. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: varianza y desviación típica ▶ Consideremos una vez más el número de huevos de los 150 nidos. ▶ Para estos datos se tiene que 1 ∑ x= xi = 2,027, 150 n i=1 1 ∑ 2 xi = 6,68, 150 n i=1 ▶ Luego s2x = 6,68 − 2,0272 = 2,57 huevos2 , sx = √ 2,5794 = 1,6 huevos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Propiedades de la varianza y la desviación típica min 29 22/09 X -- > S dt= x S'x = 5x ▶ La varianza y la desviación típica son siempre números no negativos, es decir, s2x ≥ 0, sx ≥ 0. ▶ La varianza sólamente toma el valor 0 en los casos en los que todas las observaciones son iguales. Lo mismo le ocurre a la desviación típica. ▶ Si Y es una transformación lineal de X, esto es, si Y = aX + b, entonces la varianza y la desviación de Y son s2y = s2ax+b = a2 s2x , sy = sax+b = |a| sx . ▶ La varianza y la desviación típica no son medidas robustas, ya que se ven muy infuenciadas por las observaciones atípicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Aplicación de x̄ y sx : tipificación de variables ▶ Cuando se quieren comparar observaciones de una variable que pertenecen a dos poblaciones distintas, puede ocurrir que la media y la varianza de dichas poblaciones sean muy diferentes. ▶ En estos casos, comparar las observaciones directamente puede llevar a conclusiones erróneas. ▶ Por ejemplo, si se quiere comparar el nivel de colesterol de una persona con el de glucosa, no tiene mucho sentido hacerlo directamente, ya que los niveles de colesterol son, como conjunto, bastante mayores que los de glucosa. ▶ Para solventar este problema, se pueden transformar los datos de cada una de las poblaciones para llevarlos a una escala donde sean comparables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tipificación de variables (continuación) ▶ Tipificar o estandarizar las observaciones de una variable consiste en aplicarles una transformación lineal de tal manera que el conjunto de datos transformados tenga media 0 y varianza 1. ▶ Dada una variable X y un conjunto de observaciones, x1 , x2 , . . . , xn , los datos tipificados se construyen restando a cada observación la media y dividiendo esta diferencia por la desviación típica, es decir, z1 = x1 − x x2 − x xn − x , z2 = , . . . , zn = . sx sx sx ▶ Los nuevos datos, z1 , z2 , . . . , zn , reciben el nombre de datos tipificados, y expresan el número de desviaciones típicas que cada observación dista de la media. Esto permite comparar la posición relativa de datos procedentes de diferentes distribuciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: tipificación de variables ▶ Un individuo que acaba de hacerse unos análisis de sangre tiene un nivel de glucosa de 125 mg/dl y un nivel de colesterol de 247 mg/dl. Para las personas de su edad, el nivel medio de glucosa es 80 mg/dl, con una desviación típica de 30 mg/dl, mientras que el nivel medio de colesterol es de 190 mg/dl con una varianza de 3249(mg/dl)2 . ¿Cuál de los dos niveles resulta más preocupante en este individuo? Solución: El valor tipificado del nivel de glucosa del individuo es zg = 125 − g 125 − 80 = = 1,5. sg 30 nos preocupa el que más se aleje de la media en este caso la glucosa Esto indica que su nivel de glucosa está 1.5 desviaciones típicas por encima de la media de su grupo de edad. Por otra parte, el valor tipificado de su de colesterol en sangre es zc = 247 − 190 247 − c 247 − 190 = = √ = 1, sc 57 3249 luego está 1 desviación por encima de la media de su grupo. Puesto que zg > zc , concluimos que problema de azucar de este individuo es más severo que el de colesterol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cuasi-varianza y cuasi desviación típica ▶ La cuasi-varianza es una medida de dispersión estrechamente relacionada con la varianza. Su definición es 1 ∑ (xi − x)2 . n−1 n S2x = i=1 ▶ Observamos que la única diferencia con la varianza es que la suma de cuadrados de las desviaciones a la media se divide por n − 1 en lugar de por n. ▶ El interés de la cuasi-varianza radica en que, cuando se quiere estimar la varianza de una variable en una población a partir de las observaciones de una muestra pequeña, la cuasi-varianza presenta ciertas propiedades que la hacen más adecuada que la varianza. Cuando n es grande la diferencia entre s2x y S2x es prácticamente imperceptible. √ ▶ La raíz cuadrada de la cuasi-varianza, Sx = + S2 x , recibe el nombre de cuasi-desviación típica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rango intercuartílico ▶ El rango intercuartílico, o recorrido intercuartílico, es la diferencia entre el tercer y el primer cuartil, esto es, RIx = Q3 − Q1 . 25% el 50 % 75% R1 ▶ Este valor indica la distancia que separa a las dos observaciones que limitan la mitad central de los datos. ▶ El rango intercuartílico es una medida de dispersión robusta, ya que en su cálculo no intervienen las observaciones más extremas. ▶ Ejemplo: Para los datos sobre el número de huevos en Talampaya teniamos que Q1 = 1 y Q3 = 3; por tanto su rango intercuartílico es RI = 3 − 1 = 2 huevos. ▶ A partir del rango intercuartílico de un conjunto de datos de puede construir un diagrama de caja para representarlos gráficamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagramas de caja ▶ El diagrama de caja (box-plot) es un gráfico basado en los cuartiles. Contiene información sobre la simetría de la distribución y además nos permitirá formalizar la idea de dato atípico. ▶ Para construir el diagrama de caja, se construye un rectángulo (o caja) cuyos lados verticales pasan por el primer y tercer cuartil, con una línea vertical a la altura de la mediana. ▶ La caja contiene la mitad central de los datos, y cada una de las otras dos cuartas partes queda a uno de los lados de la caja. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diagramas de caja (continuación) ▶ A continuación se traza una barrera vertical imaginaria a la izquierda de Q1 a distancia 1.5×RI, Q1 − 1,5 × RI barrera inferior: y otra barrera imaginaria a la derecha de Q3 también a distancia 1.5×RI, Q3 + 1,5 × RI barrera superior: ▶ Después se traza un bigote desde cada lado de la caja al dato más extremo que esté dentro de las barreras. ▶ Las observaciones que quedan fuera de las barreras pueden considerarse datos atípicos, y se dibujan como puntos aislados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: diagrama de caja ▶ Vamos a construir un diagrama de caja para los datos 114, 125, 114, 124, 142, 152, 133, 113, 127, 135, 122, 127, 185, 134, 147 ▶ Los cuartiles de esta muestras son Q1 = 122, Q2 = 130, PRIMER DATO QUE ME ENCUENTRO X DEBAJO Q3 = 142, ya que PRIMER DATO MAYOR (PATITA INFERIOR)▶ 172 Por tanto el rango intercuartílico es RI = 142 − 122 = 20 MIN 49 Y FTO PUNTO MEDIO DE LOS 3 VALORES CENTRALES 127+133/2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: diagrama de caja (continuación) ▶ Multiplicándo el rango intercuartílico por 1.5, 1,5 × RI = 1,5 × 20 = 30, determinamos que las barreras del diagrama son barrera inferior: Q1 −1,5×RI = 122−30 = 92 barrera superior: Q3 +1,5×RI = 142+30 = 172 ▶ Puesto que no hay ningún dato inferior a 92, el bigote de la izquierda va hasta 113, que es la observación más pequeña. ▶ Sí hay un dato superior a 172: el 185, que se dibujará fuera de la caja como un punto aislado. El bigote de la derecha llegará hasta 152, que es la mayor de las observaciones que no exceden la barrera. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: diagrama de caja (continuación) ▶ Con todo esto se obtiene el siguiente diagrama de caja: Diagrama de caja 100 120 140 160 180 . . . . . . 200 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: diagrama de caja (continuación) ▶ El diagrama de caja también puede representarse verticalmente: dato atípico 160 180 200 Diagrama de caja 140 primer dato menor Q3 50% DE LOS DATOS 120 Q2 o mediana Q1 100 EL PRIMER DATO MAYOR DE LA FRONTERA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Utilidad de los diagramas de caja ▶ Los diagramas de caja son muy utiles para explorar los datos, ya que proporcionan información visual sobre cómo se distribuyen los datos, sobre su simetría y sobre sus posibles datos atípicos. ▶ Además, son una herramienta muy útil para comparar conjuntos de datos, como puede apreciarse en el siguiente ejemplo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: utilidad de los diagramas de caja ▶ Un equipo de ambientólogos ha desarrollado un sofisticado programa informático para predecir los niveles de calentamiento del planeta en el futuro en función de diversos factores. Con el fin de evaluar el tiempo de compilación de dicho programa, lo han puesto a correr en todos todos los ordenadores de su laboratorio, tanto en los fijos como en los portátiles. El gráfico de la transparencia siguiente representa los tiempos de compilación resultantes medidos en horas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo (continuación) portatiles fijos 75% 20 40 60 80 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo (continuación) ▶ Mirando estos diagramas, podemos responder a cuestiones como las siguientes: 1. El ordenador que menos tarda en compilar el programa, ¿es un fijo o un portatil? portátil, por los datos que hay atípicos 2. ¿Cuál es la proporción de ordenadores portátiles que complilan el programa en menos de 60 segundos? el 25% 3. ¿Qué proporción de ordenadores fijos tardan en compilar el programa entre 15 y 80 segundos? 4. ¿Qué proporción de portátiles tardan en compilar un tiempo inferior al del más lento de los ordenadores fijos? 5. El tiempo medio de compilación de los ordenadores portátiles, ¿es menor que 80 segundos, exactamente 80, o mayor que 80? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo (continuación) ▶ A partir de los diagramas de caja, es fácil dar las siguientes respuestas: 1. El gráfico muestra que el tiempo mínimo de compilación (inferior a 20 horas) corresponde a un ordenador portatil. 2. En el diagrama de caja se puede apreciar que 60 horas es el primer cuartil del tiempo de compilación para el grupo de ordenadores portátiles (Q1 = 60). En consecuencia, la proporción de portátiles de esta empresa que compilan el programa en menos de 60 horas es 0.25. 3. En el diagrama de caja podemos ver que todos los ordenadores fijos tardan más de 15 horas en compilar el programa, y que 80 horas es el tercer cuartil del tiempo de compilación para los ordenadores fijos (Q3 = 80). Luego la proporción de ordenadores fijos tardan en compilar el programa entre 15 y 80 horas es 0.75. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo (continuación) 4. El más lento de los ordenadores fijos tarda 90 horas en complilar el programa. Por otra parte 90 minutos es el tercer cuartil para los tiempo de compilación de los portátiles. Por consiguiente la proporción de portátiles tardan en compilar un tiempo inferior al del más lento de los ordenadores fijos es 0.75. 5. La mediana de los tiempos de compilación es 80 horas. El diagrama de caja evidencia que la distribución de los tiempos es muy asimétrica a la izquierda, y que hay dos datos atípicos a la izquierda. En consecuencia el tiempo medio de compilación de los ordenadores portátiles será sensiblemente inferior a 80 horas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Otras utilidades de los box-plots ▶ Los diagramas de caja también resultan útiles para analizar la evolución de una variable a lo largo del tiempo. Por ejemplo, el gráfico siguiente permite comparar la concentración de oxígeno disuelto en el agua de un río a lo largo de los 12 meses de un año: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Coeficiente de variación ▶ ¿Qué tiene más variabilidad: la altura de las jirafas o la de los ping�inos? ▶ Las medidas de dispersión que hemos visto hasta ahora dependen de las unidades en las que se mida la variable y de su magnitud. ▶ Pero, evidentemente, no es lo mismo una desviación típica de 30 cm en las alturas de las jirafas que en las de los ping�inos. ▶ Para poder comparar la dispersión de variables que están medidas en unidades diferentes, o que toman valores de magnitudes muy distintas, es preciso contar con una medida de variabilidad que no dependa de las unidades ni del tamaño de los datos. ▶ Las unidades de la media y de la desviación típica son las mismas que las de los datos. Una manera natural de construir una medida de variabilidad que no dependa de las unidades ni de la magnitud de los datos es calcular el cociente CVx = sx , |x| sirve para comparar 2 grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Observaciones sobre el coeficiente de variación ▶ El cociente CVx = sx , |x| recibe el nombre de coeficiente de variación y puede interpretarse como la proporción o tanto por uno de variabilidad. ▶ El coeficiente de variación es invariante ante cambios de escala: si multiplicamos los datos por una constante a, entonces |a|sx sx sax = = = CVx CVax = |ax| |a||x| |x| ▶ El coeficiente de variación sirve para comparar las variabilidades de dos conjuntos de datos con unidades o magnitudes diferentes, mientras que si deseamos comparar dos elementos pertenecientes cada uno a uno de esos conjuntos, debemos usar los valores tipificados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo: coeficiente de variación ▶ Un médico desea determinar si la variabilidad de los niveles de glucosa en sangre de los individuos de cierto grupo de edad es mayor o menor que la de los niveles colesterol. La distribución del nivel de glucosa en ese grupo de edad tiene una media de 80 mg/dl y una desviación típica de 30 mg/dl, mientras que el nivel medio de colesterol es de 190 mg/dl con una varianza de 3249(mg/dl)2 . Los coeficientes de variación son: sg 30 CVg = = = 0,375 g 80 √ sc 3249 57 CVc = = = = 0,3 c 190 190 Por tanto, en este grupo de edad, los niveles de glucosa presentan mayor dispersión que los de colesterol, o lo que es lo mismo, los niveles de colesterol están más concentrados que los de glucosa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Otros aspectos a tener en cuenta al describir datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datos atípicos ▶ Los datos atípicos requieren una atención especial. Es importante identificarlos y decidir cómo tratarlos, ya que pueden tener una fuerte infuencia en las conclusiones del análisis. ▶ En algunos casos el outlier aparece como consecuencia de un acontecimiento extraordinario. En este caso, el ese dato atípico no es representativo y puede ser eliminado del análisis. ▶ Otras veces la observación atípica es simplemente consecuencia de un error en la recogida o la transcipción de los datos. Debe evitarse que este tipo de outliers influyan en el análisis. ▶ También hay observaciones anómalas para las que no parece haber explicación. Estos datos pueden aportar información relevante sobre el comportamiento de la variable, y conviene tratar de averiguar su por qué. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datos ausentes ▶ Es frecuente encontrarse con que los valores de la variable son desconocidos para algunas de las unidades experimentales. ▶ Por ejemplo, podría ocurrir que algunos de los nidos de Talampaya fuesen inaccesibles y no se pudiese registrar el número de huevos que tienen. ▶ Evidentemente, la validez de un estudio se ve afectada por la reducción del número total de casos. ▶ Puede ocurrir, por ejemplo, que los nidos inaccesibles sean precisamente los que tienen más huevos, porque los ñandúes que han decidido anidar en lugares más difíciles sean los que tienen más huevos que proteger. ▶ El tratamiento de los posibles datos perdidos es también parte importante de un análisis descriptivo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datos temporales ▶ Cuando se quiere tener en cuenta el orden de los datos, el análisis descriptivo requiere herramientas específicas. ▶ Por ejemplo, representar observaciones temporales mediante un histograma o un diagrama de barras tiene muy poca utilidad. Deben representarse en un diagrama de serie temporal, como el siguiente: 170 160 150 140 130 Ejemplares 180 190 Avistamientos de ballenas 2002 2003 2004 2005 2006 2007 2008 2009 año . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Datos temporales (continuación) ▶ La elección de la escala influye mucho en la percepción que transmite un gráfico temporal. Por ejemplo, los dos gráficos siguientes representan los mismos datos sobre avistamientos de ballenas: Avistamientos de ballenas 200 100 150 Ejemplares 170 160 150 0 130 50 140 Ejemplares 180 250 190 300 Avistamientos de ballenas 2002 2003 2004 2005 2006 2007 2008 2009 2002 2003 2004 año 2005 2006 2007 2008 2009 año ▶ Los estadísticos de centralización, posición o dispersión son poco informativos para datos temporales. Por ejemplo, el número de medio de ballenas avistadas por año no es un buen resumen de su . . . . . . . . . . . . . . . . evolución. . . . . . . . . . . . . . . . . . . . . . . . . ¿Cómo enfrentarse a un conjunto de datos? ▶ Finalmente, hay que tener en cuenta que Para extraer la máxima información de un conjunto de datos deben combinarse las técnicas gráficas y numéricas. ▶ Es muy importante tener en mente la variable que se está midiendo y el objetivo que se persigue. ▶ En el análisis de datos no existen recetas universales validas para todas las muestras y poblaciones: cada conjunto de observaciones es un mundo diferente con sus propias particularidades. Por ello hay que dejar que los datos ”hablen”. ▶ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bibliografía ▶ Grima, P. (2010) La certeza absoluta y otras ficciones. Los secretos de la estadística. RBA Capítulo 1. ▶ Ross, S.M. (2007) Introducción a la Estadística. Reverte Capítulos 2 y 3. ▶ Méndez Iglesias, M. Introducción a la estadística para ornitólogos que odian el Ardeola: http://www.escet.urjc.es/biodiversos/espa/personal/marcos/cpp/Estadis.pdf ▶ Peña, D. (2001) Fundamentos de Estadística. Alianza Editorial Capítulo 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .