Medidas descriptivas

Anuncio
TEMA 3: ESTADÍSTICA DESCRIPTIVA: MEDIDAS DESCRIPTIVAS.
1.−MEDIDAS DE TENDENCIA CENTRAL
• Datos no Agrupados
1.1.−Media Aritmética
La media aritmética de un conjunto de observaciones es una medida de tendencia central conocida como
promedio. Es la suma de todos los valores que toma la variable en estudio dividido por el número total de
observaciones en la muestra.
Ejemplo.− Los siguientes datos corresponden al registro de pesos de pollos (gr.) de seis semanas de vida en
un establecimiento.
150 152 154 155 155 157 157 157 157 160
x1 x2 .......................................... xn = 10
Propiedades
• La suma algebraica de los desvíos de cada observación, respecto de la media, considerando los signos,
es cero.
• La suma de los desvíos cuadráticos de cada observación respecto de su media es un mínimo.
• Es un valor típico o representativo porque su valor puede utilizarse para estimar una cantidad total en
la población.
Cantidad Total =
• Dado que todos los valores entran en el cálculo de la media, ésta se ve afectada por valores extremos.
1.2.−Mediana
La mediana de un conjunto de observaciones ordenadas por su magnitud, es un valor de la variable que divide
al conjunto en dos subconjuntos iguales, de forma tal que el número de valores mayores o iguales a la
mediana es igual al número de valores menores o iguales a ésta.
Mediana de orden (Me0) = (n + 1) / 2, Indica la posición en la serie ordenada de datos.
• Número par de datos: promedio de los valores centrales de la serie ordenada.
• 152 154 155 155 157 157 157 157 160
Me0 = 5,5
Me = (155 +157) / 2 = 156 gr.
• Número impar de datos: valor que está justo en el centro de la serie ordenada.
1
150 151 152 154 155 155 157 157 157 157 160
Me0 = 6
Me = 155 gr.
Propiedades
• Su valor está afectado por el número de observaciones, pero no por los valores que adopta la variable.
1.3.−Modo
El modo de un conjunto de observaciones es el valor de la variable que se presenta con mayor frecuencia.
150 152 154 155 155 157 157 157 157 160
Mo = 157 gr
Propiedades
• Su valor no está afectado por valores extremos.
• Es la única medida de posición que puede ser usada para caracterizar datos cualitativos.
1.4.− Cuantiles
Son medidas de posición no central, tales que, según el número de subconjuntos en que se divide la serie
ordenada de datos, se denominan cuartiles, deciles o percentiles.
1.4.1.− Cuartiles
Los cuartiles de una serie de datos ordenados, son los valores de la variable que dividen al conjunto en
cuatro subconjuntos que contienen la misma cantidad de datos.
Q1= valor de la variable correspondiente a la (n + 1) / 4 observación ordenada.
Q2 = valor de la variable correspondiente a la 2(n + 1) / 4 observación ordenada. Corresponde a la
mediana.
Q3= valor de la variable correspondiente a la 3(n + 1) / 4 observación ordenada.
• Reglas
a) Si el valor de la posición es un número entero (Q0= 3) el valor del cuartil es la observación que coincide
con dicha posición.
b) Si el valor de la posición no es un número entero, tenemos:
b1 ) El valor de posición está en la mitad de dos de ellos (Q0= 3.5), entonces, el valor del cuartil es el
promedio de los observaciones correspondientes a las posiciones X3 y X4.
b2 ) El valor de posición se obtiene por redondeo al punto de posición entero más cercano (Q0= 3.25 pasa a
Q0= 3), y en esa posición, estará la observación correspondiente al respectivo cuartil.
2
x3 x6 x9
150 151 152 154 155 155 157 157 157 157 160
Q1 Q2 Q3
1.4.− Rango Medio
Es el promedio de los valores máximos y mínimos de la variable. (Xmax + Xmin)/2
1.5.− Amplitud semiintercualtil
Es el promedio de los valores del primer y tercer cuartil. (Q3 + Q1)/2
1.−MEDIDAS DE POSICIÓN
• Datos Agrupados
Media Aritmética
Ejemplo.− la siguiente corresponde a la distribución de frecuencias del número de horas de sueños de 49
pacientes post−cirugía, como resultado de la administración de cierto anestésico.
Intervalos
3−5
5−7
7−9
9 − 11
11 − 13
13 − 15
15 − 17
mi
4
6
8
10
12
14
16
Frecuencias fi
22
6
8
5
4
3
1
Frecuencias Fi
22
28
36
41
45
48
49
Intervalo
Modal
Intervalo
Mediano
Diagrama de Caja y Sesgo (Box and Whisker Plot)
• Diagrama que muestra estadísticos resumen para la distribución. Dibuja Mediana, Percentil 25°
(primer cuartil), el percentil 75° (tercer cuartil) y valores extremos o muy extremos.
Mediana Limite superior (Q3)
ø &&ø
LEI LI LS LES
3
Limite inferior (Q1)
• La longitud de la caja representa el Rango o Amplitud intercuartil (Q3 − Q1). El 50% de las
observaciones (ordenadas por su magnitud) se encuentran dentro de la caja.
• El box plot incluye o representa dos categorías de datos:
• Valores extremos (alejados o outliers). (value="2">
Valores muy extremos (muy alejados). (ø)
¿Cuáles son?
Limite inferior (LI): [Q1 − 1,5 (Q3 − Q1)]
Limite superior (LS): [Q3 + 1,5 (Q3 − Q1)]
Limite extremo inferior (LEI): [Q1 − 3 (Q3 − Q1)]
Limite extremo superior (LES): [Q3 + 3 (Q3 − Q1)]
• Valores Extremos(se encuentran entre 1.5 y 3 veces la amplitud intercuartil a ambos lados de la caja.
• Valores muy extremos (ø): se encuentran por encima de 3 veces la amplitud intercuartil a ambos lados
de la caja.
• Los Whiskers o Patillas (extremos de las líneas verticales o sesgos): muestran los mayores y menores
valores que no son valores extremos.
¿Cómo podemos interpretar nuestros datos a partir del box plot?
• Ubicación de la media en la caja:
• No está en el centro de la caja entonces la distribución presenta asimetría.
• La mediana se localiza cerca del extremo inferior, distribución asimétrica positiva, con una cola
(sesgo) alargado a la derecha.
• La mediana se localiza cerca del extremo superior, distribución asimétrica negativa, con una cola
(sesgo) alargado a la izquierda.
• Esta en el centro de la caja entonces la distribución es simétrica (o aproximadamente simétrica).
♦ Longitud de la caja: se puede observar la amplitud (50% central de los datos) o variabilidad
de las observaciones.
♦ Los box plot resultan útiles para compara varios grupos y sus distribuciones.
MEDIDAS DE DISPERSIÓN
La dispersión de un conjunto de observaciones se refiere a la magnitud de la variabilidad que
presentan las mismas.
Ejemplo
Grupo 1 = 150 152 154 155 155 157 157 157 157 160
Grupo 2 = 148 152 154 155 155 157 157 157 157 162
4
Grupo 3 = 140 148 150 155 155 158 160 162 162 164
Rango − Amplitud
Se denomina amplitud a la medida de variabilidad que surge de la diferencia entre el valor máximo y
mínimo del conjunto de datos.
♦ Depende de los valores extremos
♦ Su uso es sólo satisfactorio para un conjunto pequeño de datos.
R= Xmax. − Xmín
G.1 media = 155,4 gr rango = 10 gr.
G.2 media = 155,4 gr rango = 14 gr.
G.3 media = 155,4 gr rango = 24 gr.
Amplitud intercuatil
Se denomina amplitud intercuartil a la diferencia entre los valores del tercer y primer cuartil.
Amplitud intercuartil = Q 3 − Q 1
Ejemplo:
x3 x6 x9
150 151 152 154 155 155 157 157 157 157 160
Q1 Q2 Q3
Amplitud intercuartil = 157 − 152 = 5 gr.
Variancia y Desvío Estándar
3.−MEDIDAS DE FORMA
Propiedad de los datos que tiene en cuenta la forma de distribución de los mismos. Puede ser
simétrica o asimétrica negativa o positiva.
♦ Posición de la media con respecto a la mediana.
• Media > Mediana = asimétrica positiva o con sesgo a la derecha.
• Media " Mediana = simétrica o con sesgo cero.
• Media < Mediana = asimétrica negativa o con sesgo a la
izquierda.
♦ Coeficiente Pearsoniano.
• Valores Positivos significan una distribución asimétrica positiva
o con sesgo a la derecha.
• Valores aproximados a cero significan una distribución simétrica
o con sesgo cero.
5
• Valores Negativos significan una distribución asimétrica negativa
o con sesgo a la izquierda.
4.−MEDIDAS DE AGUDEZA
Propiedad de forma de las distribuciones simétricas.
• K " 0 Platicurtica.
• K " 0.263 Mesocurtica.
• K " 0.5 Leptocurtica.
•
6
Descargar