TEMA 3: ESTADÍSTICA DESCRIPTIVA: MEDIDAS DESCRIPTIVAS. 1.−MEDIDAS DE TENDENCIA CENTRAL • Datos no Agrupados 1.1.−Media Aritmética La media aritmética de un conjunto de observaciones es una medida de tendencia central conocida como promedio. Es la suma de todos los valores que toma la variable en estudio dividido por el número total de observaciones en la muestra. Ejemplo.− Los siguientes datos corresponden al registro de pesos de pollos (gr.) de seis semanas de vida en un establecimiento. 150 152 154 155 155 157 157 157 157 160 x1 x2 .......................................... xn = 10 Propiedades • La suma algebraica de los desvíos de cada observación, respecto de la media, considerando los signos, es cero. • La suma de los desvíos cuadráticos de cada observación respecto de su media es un mínimo. • Es un valor típico o representativo porque su valor puede utilizarse para estimar una cantidad total en la población. Cantidad Total = • Dado que todos los valores entran en el cálculo de la media, ésta se ve afectada por valores extremos. 1.2.−Mediana La mediana de un conjunto de observaciones ordenadas por su magnitud, es un valor de la variable que divide al conjunto en dos subconjuntos iguales, de forma tal que el número de valores mayores o iguales a la mediana es igual al número de valores menores o iguales a ésta. Mediana de orden (Me0) = (n + 1) / 2, Indica la posición en la serie ordenada de datos. • Número par de datos: promedio de los valores centrales de la serie ordenada. • 152 154 155 155 157 157 157 157 160 Me0 = 5,5 Me = (155 +157) / 2 = 156 gr. • Número impar de datos: valor que está justo en el centro de la serie ordenada. 1 150 151 152 154 155 155 157 157 157 157 160 Me0 = 6 Me = 155 gr. Propiedades • Su valor está afectado por el número de observaciones, pero no por los valores que adopta la variable. 1.3.−Modo El modo de un conjunto de observaciones es el valor de la variable que se presenta con mayor frecuencia. 150 152 154 155 155 157 157 157 157 160 Mo = 157 gr Propiedades • Su valor no está afectado por valores extremos. • Es la única medida de posición que puede ser usada para caracterizar datos cualitativos. 1.4.− Cuantiles Son medidas de posición no central, tales que, según el número de subconjuntos en que se divide la serie ordenada de datos, se denominan cuartiles, deciles o percentiles. 1.4.1.− Cuartiles Los cuartiles de una serie de datos ordenados, son los valores de la variable que dividen al conjunto en cuatro subconjuntos que contienen la misma cantidad de datos. Q1= valor de la variable correspondiente a la (n + 1) / 4 observación ordenada. Q2 = valor de la variable correspondiente a la 2(n + 1) / 4 observación ordenada. Corresponde a la mediana. Q3= valor de la variable correspondiente a la 3(n + 1) / 4 observación ordenada. • Reglas a) Si el valor de la posición es un número entero (Q0= 3) el valor del cuartil es la observación que coincide con dicha posición. b) Si el valor de la posición no es un número entero, tenemos: b1 ) El valor de posición está en la mitad de dos de ellos (Q0= 3.5), entonces, el valor del cuartil es el promedio de los observaciones correspondientes a las posiciones X3 y X4. b2 ) El valor de posición se obtiene por redondeo al punto de posición entero más cercano (Q0= 3.25 pasa a Q0= 3), y en esa posición, estará la observación correspondiente al respectivo cuartil. 2 x3 x6 x9 150 151 152 154 155 155 157 157 157 157 160 Q1 Q2 Q3 1.4.− Rango Medio Es el promedio de los valores máximos y mínimos de la variable. (Xmax + Xmin)/2 1.5.− Amplitud semiintercualtil Es el promedio de los valores del primer y tercer cuartil. (Q3 + Q1)/2 1.−MEDIDAS DE POSICIÓN • Datos Agrupados Media Aritmética Ejemplo.− la siguiente corresponde a la distribución de frecuencias del número de horas de sueños de 49 pacientes post−cirugía, como resultado de la administración de cierto anestésico. Intervalos 3−5 5−7 7−9 9 − 11 11 − 13 13 − 15 15 − 17 mi 4 6 8 10 12 14 16 Frecuencias fi 22 6 8 5 4 3 1 Frecuencias Fi 22 28 36 41 45 48 49 Intervalo Modal Intervalo Mediano Diagrama de Caja y Sesgo (Box and Whisker Plot) • Diagrama que muestra estadísticos resumen para la distribución. Dibuja Mediana, Percentil 25° (primer cuartil), el percentil 75° (tercer cuartil) y valores extremos o muy extremos. Mediana Limite superior (Q3) ø &&ø LEI LI LS LES 3 Limite inferior (Q1) • La longitud de la caja representa el Rango o Amplitud intercuartil (Q3 − Q1). El 50% de las observaciones (ordenadas por su magnitud) se encuentran dentro de la caja. • El box plot incluye o representa dos categorías de datos: • Valores extremos (alejados o outliers). (value="2"> Valores muy extremos (muy alejados). (ø) ¿Cuáles son? Limite inferior (LI): [Q1 − 1,5 (Q3 − Q1)] Limite superior (LS): [Q3 + 1,5 (Q3 − Q1)] Limite extremo inferior (LEI): [Q1 − 3 (Q3 − Q1)] Limite extremo superior (LES): [Q3 + 3 (Q3 − Q1)] • Valores Extremos(se encuentran entre 1.5 y 3 veces la amplitud intercuartil a ambos lados de la caja. • Valores muy extremos (ø): se encuentran por encima de 3 veces la amplitud intercuartil a ambos lados de la caja. • Los Whiskers o Patillas (extremos de las líneas verticales o sesgos): muestran los mayores y menores valores que no son valores extremos. ¿Cómo podemos interpretar nuestros datos a partir del box plot? • Ubicación de la media en la caja: • No está en el centro de la caja entonces la distribución presenta asimetría. • La mediana se localiza cerca del extremo inferior, distribución asimétrica positiva, con una cola (sesgo) alargado a la derecha. • La mediana se localiza cerca del extremo superior, distribución asimétrica negativa, con una cola (sesgo) alargado a la izquierda. • Esta en el centro de la caja entonces la distribución es simétrica (o aproximadamente simétrica). ♦ Longitud de la caja: se puede observar la amplitud (50% central de los datos) o variabilidad de las observaciones. ♦ Los box plot resultan útiles para compara varios grupos y sus distribuciones. MEDIDAS DE DISPERSIÓN La dispersión de un conjunto de observaciones se refiere a la magnitud de la variabilidad que presentan las mismas. Ejemplo Grupo 1 = 150 152 154 155 155 157 157 157 157 160 Grupo 2 = 148 152 154 155 155 157 157 157 157 162 4 Grupo 3 = 140 148 150 155 155 158 160 162 162 164 Rango − Amplitud Se denomina amplitud a la medida de variabilidad que surge de la diferencia entre el valor máximo y mínimo del conjunto de datos. ♦ Depende de los valores extremos ♦ Su uso es sólo satisfactorio para un conjunto pequeño de datos. R= Xmax. − Xmín G.1 media = 155,4 gr rango = 10 gr. G.2 media = 155,4 gr rango = 14 gr. G.3 media = 155,4 gr rango = 24 gr. Amplitud intercuatil Se denomina amplitud intercuartil a la diferencia entre los valores del tercer y primer cuartil. Amplitud intercuartil = Q 3 − Q 1 Ejemplo: x3 x6 x9 150 151 152 154 155 155 157 157 157 157 160 Q1 Q2 Q3 Amplitud intercuartil = 157 − 152 = 5 gr. Variancia y Desvío Estándar 3.−MEDIDAS DE FORMA Propiedad de los datos que tiene en cuenta la forma de distribución de los mismos. Puede ser simétrica o asimétrica negativa o positiva. ♦ Posición de la media con respecto a la mediana. • Media > Mediana = asimétrica positiva o con sesgo a la derecha. • Media " Mediana = simétrica o con sesgo cero. • Media < Mediana = asimétrica negativa o con sesgo a la izquierda. ♦ Coeficiente Pearsoniano. • Valores Positivos significan una distribución asimétrica positiva o con sesgo a la derecha. • Valores aproximados a cero significan una distribución simétrica o con sesgo cero. 5 • Valores Negativos significan una distribución asimétrica negativa o con sesgo a la izquierda. 4.−MEDIDAS DE AGUDEZA Propiedad de forma de las distribuciones simétricas. • K " 0 Platicurtica. • K " 0.263 Mesocurtica. • K " 0.5 Leptocurtica. • 6