ESTADÍSTICA . , , , divorciado x viudo x soltero x casado x = = = = 1

Anuncio
ESTADÍSTICA
La Estadística es la parte de las Matemáticas que estudia métodos para interpretar datos obtenidos de
investigaciones o experimentos aleatorios (aquellos en los que no se puede predecir el resultado aunque se
realicen siempre en las mismas condiciones), con el fin de extraer de ellos unas conclusiones.
La Estadística puede ser:
a) Descriptiva.-Trata de obtener unas conclusiones a partir de ciertos datos mediante el empleo de
gráficos o la obtención de unos ciertos valores que los representen a todos. Llamados parámetros
estadísticos.
b) Inferencial.-Trata de determinar los valores que adoptarán una serie de datos muy numerosos,
que forman una población mediante el estudio de unos cuantos de ellos extraídos de la población
de una manera significativa y que forman una muestra.
La Estadística descriptiva se encarga de estudiar una o varias de las características de un conjunto de
elementos. Para conseguirlo necesitará:
- Recoger los datos.
- Registrar y ordenar los datos en tablas.
- Representar y resumir los datos mediante gráficas que faciliten su interpretación.
- Calcular unos “números” llamados estadísticos, que describen y simplifican los datos recogidos para
el estudio a efectuar..
Conceptos básicos:
Población: es el conjunto de todos los elementos objeto de nuestro estudio.
Muestra: es un subconjunto extraído de la población, cuyo estudio sirve para inferir características
de toda la población. Tendrá que ser representativo y aleatorio. La Teoría de Muestreo es la
encargada de estudiar las condiciones óptimas para la elección de las muestras según el estudio a
hacer.
Individuo: es cada uno de los elementos del conjunto que forman la población o la muestra.
Caracteres y variables estadísticas: son los aspectos que deseamos estudiar en los individuos de
una población. Cada carácter puede tomar distintos valores o modalidades.
Ejemplo:
Un fabricante de tornillos desea hacer un control de calidad. Para ello, recoge 1 de cada 100
tornillos producidos y lo analiza para llegar a la conclusión de que es CORRECTO o
DEFECTUOSO.
- POBLACIÓN: el conjunto de todos los tornillos producidos.
- MUESTRA: los tornillos analizados.
- INDIVIDUO: cada uno de los tornillos.
- CARÁCER ESTADÍSTICO: “estado de los tornillos”. Sólo hay dos modalidades de la
variable. Defectuoso y no defectuoso. Se trata de una variable cualitativa.
Las variables estadísticas pueden ser:
Cualitativas: son las que no toman valores numéricos. Presentan modalidades.
Ejemplo: Variable estadística X = estado civil
X = { casado, soltero, viudo, divorciado}
x1 = casado, x 2 = soltero, x3 = viudo, x 4 = divorciado.
Es una variable cualitativa, con cuatro modalidades distintas.
Cuantitativas: son las que toman valores numéricos. A su vez se clasifican en:
- Discretas o no agrupadas: son las que toman valores numéricos aislados.
Ejemplo: X = El número de hijos.
- Continuas o agrupadas: son las que pueden tomar todos los valores de un intervalo.
Ejemplo: X = Altura media de todos los estudiantes de bachillerato.
1
CONFECCIÓN DE TABLAS DE FRECUENCIAS
Definiciones:
Tamaño muestral: es el número de individuos total de la población o muestra a estudiar. Lo denotamos
por la letra N.
Frecuencia absoluta de un resultado es el número de veces que se presenta dicho resultado. La
representaremos por ni.
Frecuencia relativa de un resultado es la frecuencia absoluta dividida por el número total de veces
que se ha realizado el experimento. Es decir, entre el tamaño de la muestra. La representaremos por fi.
Se obtiene: f i =
ni
N
Frecuencia absoluta acumulada de un resultado, es el número de veces que se presenta un resultado
o todos los anteriores a él. Se representa por Ni
i
Se obtiene:
N i = n1 + n 2 + n3 + ... + ni = ∑ n k
k =1
Frecuencia relativa acumulada de un resultado, a la frecuencia absoluta acumulada dividida por el
número total de observaciones. La representaremos por Fi Se obtiene:
Fi =
i
i
n
Ni
= f 1 + f 2 + f 3 + ... + f i = ∑ f k = ∑ k
N
k =1 N
k =1
Propiedades de las frecuencias:
m
La suma de todas las frecuencias absolutas es igual al tamaño de la muestra. Es decir,
∑n
i =1
i
=N
La frecuencia relativa y la acumulada toma valores comprendidos entre cero y uno: 0 ≤ f i ≤ 1
m
La suma de todas las frecuencias relativas es igual a uno. Es decir,
∑f
i =1
i
=1
Confección de una tabla de frecuencias para una variable cuantitativa discreta:
Ejemplo
Supongamos el experimento aleatorio consistente en anotar las calificaciones de matemáticas de un
colectivo de 50 alumnos. Los resultados han sido:
1-6-8-8-2-2-3-4-5-10-3-4-5-6-7-8-9-7-7-6-5-5-5-4-4-5-6-7-10-4-1-2-5-5-6-6-7-4-5-6-5-4-6-7-6-5-4-3-4-5
Variable X = calificaciones de Matemáticas
Es una variable cuantitativa discreta, pues sólo toma valores enteros comprendidos entre 1 y 10.
Tamaño de la muestra N = 50
Realizamos un recuento de los resultados obtenidos marcando una raya vertical por cada uno de ellos
y agrupándolos en grupos de 5 para facilitar el conteo:
6— IIIII IIII ..........9
1— II .....................2
7— IIIII I ..............6
2— III ....................3
8— III ...................3
3— III ....................3
9— I ......................1
4— IIIII IIII ...........9
10— II ...................2
5— IIIII IIIII II ....12
Con las definiciones dadas anteriormente, podemos organizar los datos de nuestro experimento en una
tabla de frecuencias de la siguiente manera.
2
TABLA DE FRECUENCIAS
xi
1
F.absoluta F.relativa
ni
fi
2
0,04
F.absta Acumu
Ni
F.relativa Acum
Fi
2
3
4
5
6
7
8
9
10
3
3
9
12
9
6
3
1
2
5
8
17
29
38
44
47
48
0,1
0,16
0,34
0,58
0,76
0,88
0,94
0,96
N 10 = 50
F10 = 1
Totales
N = 50
0,06
0,06
0,18
0,24
0,18
0,12
0,06
0,02
0,04
10
∑n
i =1
i
N 1 = n1 = 2
F1 = f 1 = 0,04
=1
Representación gráfica (variable discreta)
Los resultados del experimento anterior, se podrían ver con mucha mayor claridad si los datos tabulados
(de la tabla), estuviesen representados gráficamente. Los principales tipos de representaciones gráficas que
con ellos podemos hacer son:
a) Diagramas de barras. Colocamos en el eje de abcisas los valores de la variable xi y en el eje de
ordenadas los valores de las frecuencias y dibujamos barras de igual anchura cuya altura sea
exactamente la frecuencia. Así tenemos
b) Polígonos de frecuencias.- Se obtienen si unimos los puntos medios de las bases superiores de las
barras en el diagrama anterior:
c) Diagramas de sectores.- Se obtienen dividiendo la circunferencia en tantas partes como valores
tenga la variable de manera que el área de cada sector obtenido sea proporcional a la respectiva
frecuencia. Para ello basta con obtener el ángulo central que ha de ocupar cada sector, lo cual se
hace mediante una proporcionalidad directa de la siguiente manera:
Si a 360º le corresponde una frecuencia 50, a xº le corresponderá la frecuencia fi
3
De manera que se tiene:
Así, por ejemplo para una frecuencia de 12, se obtiene:
Luego con ayuda de un semicírculo graduado, se llevan
los ángulos obtenidos a la circunferencia. Sale un
gráfico parecido al siguiente:
d) Pictogramas.- Es como el diagrama de barras donde se sustituyen las mismas por un dibujo de
altura proporcional a las frecuencias y que hace más intuitiva la interpretación de los resultados.
Así podíamos sustituir las barras por dibujos de libros por ejemplo.
Confección de una tabla de frecuencias para una variable cuantitativa continua o
agrupada:
Cuando en una distribución estadística el número de valores que toma la variable es muy grande (más de
20), conviene elaborar una tabla de frecuencias agrupándolos en intervalos.
Para ello:
Se localizan los valores extremos. El menor: a y el mayor: b, y se halla su diferencia, que se llama
recorrido de la variable: r = b − a
Se decide el número de intervalos que se quiere formar, teniendo en cuenta la cantidad de datos que se
poseen. El número de intervalos no debe ser inferior a 6 ni superior a 15.
Se toma un valor r’ que sea algo superior al valor del recorrido r y que sea múltiplo del número de
intervalos, con objeto de que estos tengan una longitud entera.
Se forman los intervalos de modo que el extremo inferior del primero sea algo menor que a y el
extremo superior del último sea algo superior a b. Es deseable que los extremos de los intervalos no
coincidan con ningún valor de los datos. Para ello, puede convenir que dichos extremos tengan valores
no enteros.
Introducimos nuevos conceptos:
Marca de clase: es el punto medio de cada intervalo. Es el valor que representa a todo el intervalo
para el cálculo de algunos parámetros. Es decir, las marcas de clase se corresponden con los valores de
la variable: x1 , x 2 , x3 ,....xi ,.....x m
El intervalo i-ésimo lo denotaremos: [Li −1 , Li )
Podemos pues calcular las marcas de clase como sigue: xi =
Li −1 + Li
2
Amplitud del intervalo: es la diferencia entre los dos extremos del intervalo. Los intervalos suelen
tener amplitud constante, aunque puede que no sea así.
Se tiene: amplitud del i-ésimo intervalo a i = Li − Li −1
NOTA: cuando se elabora una tabla con datos agrupados, se pierde algo de información. A cambio, se
gana en claridad y eficacia.
El número de intervalos a elegir es un poco arbitrario. Sin embargo dichos intervalos deben cumplir
necesariamente unas normas que son:
Cubrir todo el recorrido de la variable.
Ninguno de sus extremos puede coincidir con los valores de la variable.
El extremo final de uno de ellos ha de coincidir con el extremo inicial del siguiente.
4
Tienen que ser intervalos disjuntos. Con ello, se pretende que nunca se dé el caso de haber un mismo
valor de la variable en dos intervalos diferentes. Suelen elegirse cerrados por la derecha y abiertos por
la izquierda. Aunque al revés también es igualmente válido.
Ejemplo:
Elaborar una tabla de frecuencias con las estaturas de 40 adolescentes dadas a continuación:
168, 160, 167, 175, 175, 167, 168, 158, 149, 160, 178, 166, 158, 163, 171, 162, 165, 163, 156, 174, 160,
165, 154, 163, 165, 161, 162, 166, 163, 159, 170, 165, 150, 167, 164, 165, 173, 164, 169, 170.
El número de valores distintos que hay es grande (mayor que 20) Por eso, lo adecuado es clasificarlos en
intervalos. Para ello, procedemos del siguiente modo:
Localizamos los valores extremos:
⎧ El menor a = 149⎫ Diferencia
⎨
⎬ ⎯⎯ ⎯⎯→ r = 178 − 149 = 29
⎩ El mayor b = 178 ⎭
que es el valor del recorrido
Por ser pequeño el número de datos, decidimos que el número de intervalos sea pequeño. Por ejemplo seis.
Buscamos un número algo mayor que el recorrido y que sea múltiplo de seis. Por ejemplo r’ = 30. de este
modo, cada intervalo tendrá una amplitud igual a
30
=5
6
Formamos los intervalos comenzando por un número algo menor que 149 y de modo que los seis
intervalos abarquen la totalidad de los datos.
1º intervalo: 148,5 — 153,5
2º intervalo: 153,5 — 158,5
3º intervalo: 158,5 — 163,5
4º intervalo: 163,5 — 168,5
5º intervalo: 188,5 — 173,5
6º intervalo: 173,5 — 178,5
Repartimos los cuarenta datos en los seis intervalos. Hacemos el recuento:
148,5 — 153,5
II
163,5 — 168,5
IIIII IIIII IIII
153,5 — 158,5
IIII
188,5 — 173,5
IIIII
158,5 — 163,5
IIIII IIIII I
173,5 — 178,5
IIII
TABLA DE FRECUENCIAS
Intervalos
Marca de clase xi
ni
fi
Ni
Fi
148,5 — 153,5
151
2
0,05
N 1 = n1 = 2
F1 = f 1 = 0,05
153,5 — 158,5
158,5—163,5
163,5 — 168,5
168,5 — 173,5
173,5 — 178,5
156
161
166
171
176
4
11
14
5
4
0,1
0,275
0,35
0,125
0,1
6
17
31
36
0,15
0,425
0,775
0,9
N 6 = 40
F6 = 1
Totales
N = 40
6
∑f
i =1
ii
=1
Representaciones gráficas (variable continua)
Los principales tipos de representaciones gráficas que podemos hacer son:
a) Histograma.- Colocamos en el eje de abscisas los extremos de los intervalos y en el eje de
ordenadas los valores de las frecuencias y dibujamos rectángulos unidos de la misma base si los
intervalos tienen la misma amplitud y de altura la frecuencia de cada un de ellos. Así tenemos
5
b) Polígonos de frecuencias.- Se obtienen si unimos los puntos medios de las bases superiores de los
rectángulos del histograma anterior:
c) Diagramas de sectores.- Se obtienen dividiendo la circunferencia en tantas partes como valores
tenga la variable de manera que el área de cada sector obtenido sea proporcional a la respectiva
frecuencia. Para ello basta con obtener el ángulo central que ha de ocupar cada sector, lo cual se
hace mediante una proporcionalidad directa de la siguiente manera:
Si a 360º le corresponde una frecuencia 40, a xº le corresponderá la frecuencia fi
De manera que se tiene: xi =
f i .360
40
Con ayuda de un semicírculo graduado, se llevan los ángulos obtenidos a la
circunferencia. Sale un gráfico parecido al siguiente:
PARÁMETROS ESTADÍSTICOS
Puesto que las representaciones gráficas no siempre consiguen ofrecer una información completa de una
serie de datos, es necesario analizar procedimientos numéricos que permitan resumir toda la información
del fenómeno en estudio en unos números llamados parámetros estadísticos.
Se les exige que tengan ciertas propiedades. Pero no existe ninguno que las verifique todas. No existe un
parámetro ideal. Usaremos aquellos que sean “lo más representativo posible” de la situación concreta que
estemos estudiando. Su eficacia depende de muchos factores, entre ellos, la naturaleza de la variable en
estudio, los datos de que se disponga, etc.
Los parámetros estadísticos pueden ser de dos clases:
a) Medidas de centralización. Buscan características del centro de la distribución. Las más
importantes son la media aritmética, la mediana y la moda. Otras menos utilizadas son media
geométrica, media armónica y media ponderada.
6
b) Medidas de posición. Indican, una vez ordenados, cuantos elementos quedan a la izquierda o
derecha de uno dado. Son: cuartiles, deciles, centiles o percentiles.
c) Medidas de dispersión. Proporcionan una idea sobre la separación de los datos. Son: rango, el
recorrido, desviación media, varianza, desviación típica y coeficiente de variación.
d) Medidas de forma. Proporcionan una idea de la simetría y apuntamiento de la distribución. Son:
coeficiente de simetría y coeficiente de apuntamiento.
MEDIDAS DE CENTRALIZACIÓN
La media aritmética.
Se llama así a la suma de todos los valores observados dividido por el número total de los mismos. Para
una tabla de frecuencias en la que a cada valor de la variable xi, le corresponda una frecuencia absoluta ni,
la media, que se representa por X se calcula así:
m
X =
∑ x .n
i =1
i
N
m
i
∑ x .n
m
m
ni
= ∑ xi . = ∑ xi . f i
N i =1
i =1
i
X=
i
i=1
N
OBSERVACIÓN: cuando la variable sea continua o agrupada el valor xi será la marca de clase de los
diferentes intervalos.
Así, para los datos de la tabla de los ejemplos anteriores, calcularíamos la media aritmética de la siguiente
manera:
- Añadimos una columna nueva en la tabla de frecuencias en la que vamos a calcular xi ni . Calculamos
pues, el producto de los valores de la variable por la frecuencia absoluta que le corresponde a cada uno
de dichos valores.
10
-
En la última fila, la de los totales, calculamos la suma de toda esta nueva columna.
∑x n
i =1
-
i
i
El resultado obtenido lo dividimos entre el tamaño de la muestra N. Y el valor obtenido es el valor de
la media aritmética.
Podríamos hacer los cálculos de forma similar pero con la columna de las frecuencias relativas y en ese
caso la suma de todos los elementos de dicha columna sería el valor de la media.
Cuando la variable sea continua o agrupada en intervalos, procedemos de forma análoga, pero ahora, las
marcas de clases son las que hacen el papel de los distintos valores de la variable: xi
Es decir: En el ejemplo de variable discreta tenemos:
ni
fi
xi
1
2
0,04
2
3
0,06
3
3
0,06
4
9
0,18
5
12
0,24
6
9
0,18
7
6
0,12
8
3
0,06
9
1
0,02
10
2
0,04
Totales N = 50 10
∑n
i =1
i
=1
xi.ni
2
6
9
36
60
54
42
24
9
20
10
∑x n
i =1
i
i
xi.fi
0,04
0,12
0,18
0,72
1,2
1,08
0,84
0,48
0,18
0,4
= 262
5,24
7
X =
262
= 5,24 → 5,24 es la nota media de las calificaciones de Matemáticas.
50
En el ejemplo de variable continua tenemos:
X =
Intervalos
Marca de clase xi
ni
x i .ni
fi
xi . f i
148,5 — 153,5
153,5 — 158,5
158,5—163,5
163,5 — 168,5
168,5 — 173,5
173,5 — 178,5
Totales
151
156
161
166
171
176
2
4
11
14
5
4
N = 40
302
624
1771
2324
855
704
6580
0,05
0,1
0,275
0,35
0,125
0,1
1
7,55
15,6
44,275
58,1
21,375
17,6
164,5
6580
= 164,5cm. → Es la altura media de los adolescentes
40
OBSERVACIÓN: La media aritmética es una medida única para cada distribución.
La moda:
Es el valor de la variable que tiene mayor frecuencia absoluta. Su cálculo es diferente según la
naturaleza de la variable. Se denota: M 0
Para calcular la moda procedemos de forma diferente, según sea la naturaleza de la variable en
estudio.
Variable discreta o no agrupada: El cálculo es directo
En el ejemplo de variable discreta tenemos: (ver página 3)
La moda es Mo=5, pues es a esta nota a la que corresponde la mayor frecuencia absoluta (12)
Luego: La nota obtenida más veces es 5
Si a dos o más valores les corresponde la misma frecuencia máxima, la distribución se llama
bimodal o multimodal.
NOTA: cuando las frecuencias absolutas tienen valores muy similares, la moda no es muy
representativa.
Variable continua o agrupada:
Supongamos que la frecuencia absoluta mayor es, correspondiente al intervalo [Li −1 , Lo ) que
recibe el nombre de intervalo modal. La moda se calcula mediante la siguiente fórmula:
M o = Li −1 +
ni − ni −1
.a
(ni − ni −1 ) + (ni − ni +1 ) i
Siendo:
Li −1 el extremo inferior del intervalo modal.
ni −1 la frecuencia absoluta del intervalo anterior al intervalo modal,
ni +1 la frecuencia absoluta del intervalo siguiente al intervalo modal
ai La amplitud del intervalo modal.
8
En el ejemplo de variable continua tenemos: (ver página 8)
Intervalo modal: [L3 , L4 ) = [163'5,168'5)
Extremo inferior del intervalo modal: L3 = 163,5
Frecuencia absoluta del intervalo modal: n 4 = 14
Frecuencia absoluta del intervalo anterior al modal: n3 = 11
Frecuencia absoluta del intervalo siguiente al modal: n5 = 5
Amplitud del intervalo modal: a 4 = 5
Por tanto la Moda es:
M o = L3 +
n4 − n3
14 − 11
.a4 = 163,5 +
.5 = 164, 75cm.
( n4 − n3 ) − (n4 − n5 )
(14 − 11) + (14 − 5)
La altura más frecuente entre los adolescentes es 164,75 cm.
La mediana.
Es un valor de la variable, que denotamos por Me tal que al menos la mitad de los valores de la
distribución es inferior o igual a Me, y al menos la mitad es superior o igual a Me. Es decir, es el valor de
la variable que divide la distribución en dos partes iguales.
Para calcular la mediana, los datos tienen que
presentarse en una tabla ordenados de menor a mayor
Para calcular la mediana procedemos de forma diferente, según sea la naturaleza de la variable en estudio.
Variable discreta o no agrupada:
Distinguimos dos casos según tengamos número par o impar de observaciones.
Cuando el número de observaciones, N, es impar, la mediana es el que ocupa el lugar central.
Cuando el número de observaciones, N, es par. Para calcular la mediana, se toma la media aritmética
de los dos valores centrales.
En el ejemplo de la variable discreta o no agrupada:
-
Los valores de la variable están recogidos en la tabla ordenados de menor a mayor valor.
-
Dado que hay N = 50 valores y se trata de un número par, los dos valores centrales son los
que ocupan las posiciones 25 y 26.
Mirando la tabla de frecuencias absolutas acumuladas vemos que ambos corresponden
5+5
= 5 → este
al valor 5 (ya que menores o iguales que él hay 29), por tanto, M e =
2
resultado significa:
Que la calificación de 5 puntos es el valor que divide la distribución en dos partes iguales,
es decir, hay el mismo número de alumnos con notas inferiores a 5, que alumnos con notas
superiores a 5 puntos. O lo que es lo mismo, el 50% de loa alumnos tienen menos de un 5
de puntuación y el otro 50% tiene una calificación de más de 5 puntos.
-
9
Variable continua o agrupada:
Para su calculo procedemos del siguiente modo:
- Los valores de la variable están recogidos en la tabla ordenados de menor a mayor valor.
Es decir, los intervalos seguirán orden creciente.
N
- Calculamos
2
- En la columna de la tabla de frecuencias, correspondiente a la frecuencia absoluta
N
acumulada, identificamos el PRIMER valor que sea mayor o igual que
. Vamos a
2
suponer que este valor se alcanza en el intervalo i-ésimo.
- Identificamos los siguientes elementos:
N
N i → valor de la primera frecuencia absoluta acumulada que supera o es igual
2
N i −1 → valor de la frecuencia absoluta acumulada del intervalo inmediatamente anterior a
[Li −1 , Li )
[Li −1 , Li ) → Intervalo correspondiente a N i . En él se encuentra el valor de la mediana. Se
denomina intervalo mediano.
ai → amplitud del intervalo [Li −1 , Li )
ni → frecuencia absoluta del intervalo [Li −1 , Li )
Aplicamos la siguiente fórmula:
N
− N i −1
2
M e = Li −1 +
.ai
ni
y obtenemos el valor de la mediana.
En el ejemplo de la variable continua o agrupada:
Intervalos
Marca de clase
ni
Ni
2
4
11
14
5
4
N = 40
2
6
17
31
36
40
xi
148,5 — 153,5
153,5 — 158,5
158,5—163,5
163,5 — 168,5
168,5 — 173,5
173,5 — 178,5
Totales
151
156
161
166
171
176
Los intervalos siguen orden creciente.
N 40
=
= 20
2
2
El PRIMER valor de N i mayor o igual que
N
es N 4 = 31
2
Identificamos los siguientes elementos:
N 4 = 31
N i −1 = 17
[L3 , L4 ) = [163'5,168'5) → Intervalo mediano.
10
a 4 = 5 amplitud del intervalo
n 4 = 14 Frecuencia absoluta del intervalo mediano.
Aplicamos la siguiente fórmula:
N
40
− N3
− 17
M e = L3 + 2
.a 4 = 163,5 + 2
.5 = 164,57
n4
14
Por tanto, 164,57cm. Es el valor de la altura que divide la distribución en dos partes iguales. Es
decir, el 50% de los adolescentes mide menos de 164,57cm. Y el otro 50% de ellos mide más de
164,57cm.
OBSERVACIÓN: La mediana es una medida única para cada distribución.
Ejercicios: 1, 2, 3, 4
MEDIDAS DE POSICIÓN
Para calcular las medidas de posición debemos tener SIEMPRE los datos ordenados. Los
ordenaremos de menor a mayor. En caso contrario podríamos, razonando de forma similar, obtener las
expresiones de estas medidas.
Los cuartiles. Son los valores de la variable que dejan a su izquierda un porcentaje determinado de la
población. Son TRES valores de la variable que dividen la distribución en CUATRO partes iguales. Es
decir, entre cada dos cuartiles consecutivos se encuentra el 25% de las observaciones. Es decir, el 25% de
los individuos de la población.
Notación: Qk con k = 1,2,3 . Son pues 3 valores: Q1 , Q2 , Q3
Los deciles. Son los valores de la variable que dejan a su izquierda un porcentaje determinado de la
población. Son NUEVE valores de la variable que dividen la distribución en DIEZ partes iguales. Es
decir, entre cada dos deciles consecutivos se encuentra un 10% de los individuos de la población. Se
representan por Dh k = 1,2,3...9
Por ejemplo: D3 → es el valor de la variable que deja a su izquierda el 30% de los individuos de la
población. Es decir, un 30% de la población tendrá valor de la variable menor o igual que C 32 .
Los centiles o percentiles. Son los valores de la variable que dejan a su izquierda un porcentaje
determinado de la población. Son NOVENTA Y NUEVE valores de la variable que dividen la
distribución en CIEN partes iguales. Es decir, entre cada dos percentiles consecutivos se encuentra un 1%
de los individuos de la población. Se representan por C h k = 1,2,3...99
Por ejemplo: C 32 → es el valor de la variable que deja a su izquierda el 32% de los individuos de la
población. Es decir, un 32% de la población tendrá valor de la variable menor o igual que.
Cálculo de los cuartiles, deciles y percentiles:
-
Su cálculo se obtiene de forma similar a la mediana.
Para poder calcular estas medidas de posición, los datos tienen que presentarse en una tabla
ordenados de menor a mayor.
Procedemos de forma diferente, según sea la naturaleza de la variable en estudio.
11
Variable discreta o no agrupada:
o
o
Los valores de la variable están recogidos en la tabla ordenados de menor a mayor valor.
Calculamos, según el caso:
Para el cálculo de un cuartil: Qk ; k = 1,2,3 →
Para el cálculo de un decil: Dk ; k = 1,2,3,..9 →
k .N
k = 1,2,3
4
k .N
k = 1,2,3,...9
10
Para el cálculo de un percentil: C k ; k = 1,2,3,...99 →
o
o
k .N
k = 1,2,3,...99
100
Miramos la tabla de frecuencias absolutas acumuladas y observamos el primer valor de dichas
frecuencias que sea superior o igual al valor obtenido en el punto anterior.
El valor de la variable correspondiente a dicha frecuencia es el cuartil, decil o percentil buscado.
En el ejemplo de la variable discreta o no agrupada:
-
Los valores de la variable están recogidos en la tabla ordenados de menor a mayor valor.
TABLA DE FRECUENCIAS
xi
1
2
3
4
5
6
7
8
9
10
ni
2
3
3
9
12
9
6
3
1
2
Totales
N = 50
Calculamos los tres cuartiles: Qk ; k = 1,2,3 →
Ni
2
5
8
17
29
38
44
47
48
50
k .N
k = 1,2,3
4
PRIMER CUARTIL: Q1
1. Calculamos:
1.N 50
=
= 12,5
4
4
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 12,5 F4 = 17 → x4 = 4
3.
Q1 = x 4 = 4 → El 25% de los alumnos han tenido una nota menor o igual que 4.
SEGUNDO CUARTIL: Q2 = M e
1. Calculamos:
2.N 100
=
= 25
4
4
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 25 F5 = 29 → x5 = 5
3.
Q2 = M e = x5 = 5 → El 50% de los alumnos han tenido una nota menor o igual que 5.
12
TERCER CUARTIL: Q3
1. Calculamos:
3.N 150
=
= 37,5
4
4
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 12,5 F6 = 38 → x6 = 6
3.
Q3 = x6 = 6 Comentario: el 75% de los alumnos han tenido una nota menor o igual que 6
Calculamos los deciles: Dk ; k = 1,2,3,..9 →
k .N
k = 1,2,3,...9
10
Por ejemplo: D3 ; D5 y D8
TERCER DECIL: D3
1. Calculamos:
3.N 150
=
= 15
10
10
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 15 F4 = 17 → x4 = 4
3.
D3 = x 4 = 4 → El 30% de los alumnos han tenido una nota menor o igual a 4.
QUINTO DECIL: D5
1. Calculamos:
5.N 250
=
= 25
10
10
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 25 F5 = 29 → x5 = 5
3.
D5 = M e = x5 = 5 El 50% de los alumnos han tenido una nota menor o igual que 5.
OCTAVO DECIL: D8
1. Calculamos:
8 N 400
=
= 40
10
10
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 40 F9. = 48 → x9 = 9
3.
D8 = x7 = 7 El 80% de los alumnos han tenido una nota menor o igual a 7.
Calculamos los percentiles: C k k = 1,2,3,...99 →
k .N
k = 1,2,3,...99
100
Por ejemplo: C 30 ; C 50 ; C 75 ; C 95
PERCENTIL: C 30
1. Calculamos:
30.N
= 15
100
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 15 F4 = 17 → x4 = 4
3.
C 30 = x 4 = 4 El 30% de los alumnos han tenido una nota menor o igual a 4.
13
PERCENTIL: C 50
1. Calculamos:
50.N
= 25
100
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 25 F5 = 29 → x5 = 5
3.
C 50 = M e = x5 = 5 El 50% de los alumnos han tenido una nota menor o igual que 5.
PERCENTIL: C 75
1. Calculamos:
75 N
= 37,5
100
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 37,5 F6 = 38 → x6 = 6
3.
C 75 = x6 = 6 El 75% de los alumnos han tenido una nota menor o igual a 6.
PERCENTIL: C 95
1. Calculamos:
95 N
= 47,5
100
2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 47,5 F9 = 48 → x9 = 9
3.
C 95 = x9 = 9 El 95% de los alumnos han tenido una nota menor o igual a 9.
Variable continua o agrupada:
Para su calculo procedemos del siguiente modo:
•
•
Los valores de la variable están recogidos en la tabla ordenados de menor a mayor valor. Es decir,
los intervalos seguirán orden creciente.
Calculamos, según el caso:
Para el cálculo de un cuartil: Qk ; k = 1,2,3 →
k .N
k = 1,2,3
4
Para el cálculo de un decil: Dk ; k = 1,2,3,..9 →
k .N
k = 1,2,3,...9
10
Para el cálculo de un percentil: C k ; k = 1,2,3,...99 →
k .N
k = 1,2,3,...99
100
•
En la columna de la tabla de frecuencias, correspondiente a la frecuencia absoluta acumulada,
identificamos el PRIMER valor que sea mayor o igual que el resultado obtenido en el apartado
anterior. Vamos a suponer que este valor se alcanza en el intervalo i-ésimo.
Identificamos los siguientes elementos:
-
N i → Valor de la primera frecuencia absoluta acumulada que supera o es igual
k .N k .N k .N
o
o
4
10 100
según estemos calculando cuartil, decil o percentil.
-
N i −1 → valor de la frecuencia absoluta acumulada del intervalo inmediatamente anterior a
[Li −1 , Li )
14
[Li −1 , Li ) → Intervalo correspondiente a
-
N i . En él se encuentra el valor del cuartil, decil o percentil
buscado.
-
ai → amplitud del intervalo [Li −1 , Li )
-
ni → frecuencia absoluta del intervalo [Li −1 , Li )
•
Aplicamos la siguiente fórmula y obtenemos el valor del parámetro buscado:
k .N
− N i −1
Para el cálculo de un cuartil: Qk = Li −1 + 4
.ai para k = 1,2,3
ni
k .N
− N i −1
10
.ai para k = 1,2,3,...9
Para el cálculo de un decil: Dk = Li −1 +
ni
k .N
− N i −1
100
.ai para k = 1,2,...99
Para el cálculo de un percentil: C k = Li −1 +
ni
En el ejemplo de la variable continua o agrupada:
Vamos a calcular, por ejemplo, Q1 ; D5 ; C 90
Marca de clase
Intervalos
xi
ni
148,5 — 153,5
151
2
153,5 — 158,5
158,5—163,5
163,5 — 168,5
168,5 — 173,5
173,5 — 178,5
156
161
166
171
176
4
11
14
5
4
Totales
•
•
Ni
2
6
17
31
36
40
N = 40
Los intervalos siguen orden creciente.
Calculamos:
1.N 40
=
= 10
4
4
5.N 200
=
= 20
Para el cálculo de un decil: D5 →
10
10
90.N
Para el cálculo de un percentil: C 90 →
= 36
100
Para el cálculo de un cuartil: Q1 →
•
El PRIMER valor de N i mayor o igual que:
Q1
1.N
= 10 es N 3 = 17
4
D5
C 90
5. N
= 20 es N 4 = 31
10
70.N
= 28 es N 5 = 36
100
15
Identificamos los siguientes elementos:
D5
Q1
N 3 = 17
N2 = 6
[L2 , L3 ) = [158'5,163'5)
a3 = 5 amplitud intervalo
n3 = 11 frec abs intervalo
•
C 90
N 5 = 36
N 4 = 31
[L4 , L5 ) = [168'5,173'5)
a5 = 5 amplitud intervalo
n5 = 5 frec abs intervalo
N 4 = 31
N 3 = 17
[L3 , L4 ) = [163'5,168'5)
a 4 = 5 amplitud intervalo
n 4 = 14 frec abs intervalo
Aplicamos la siguiente fórmula:
Para el cálculo del cuartil:
1.N
− N2
10 − 6
4
.5 = 160,32
Q1 = L2 +
.a3 = 158,5 +
11
n3
Por tanto, el 25% de los adolescentes miden menos de 160,32 cm. También podemos concluir que, el 75%
de los adolescentes miden más de 160,32 cm.
Para el cálculo del decil:
5.N
− N3
20 − 17
10
D5 = L3 +
.5 = 164,57 = M e
.a 4 = 163,5 +
n4
14
Por tanto, el 50% de los adolescentes mide menos de 164,57cm.
Para el cálculo del percentil:
C 90
90.40
− N4
36 − 31
= L4 + 100
.5 = 173,5
.a5 = 168,5 +
n5
5
Por tanto, el 90 % de los adolescentes mide menos de 173,5 cm. O lo que es lo mismo, el 10% de los
adolescentes mide más de 173,5cm.
OBSERVACIÓN: La mediana coincide con el segundo cuartil, el quinto decil y, el percentil número 50.
Es decir, M e = Q2 = D5 = C 50 .
Además: Q1 = C 25 ; Q3 = C 75 ; D1 = C10 ; D1 = C10 ; D2 = C 20 ; ... D8 = C80 ; D9 = C 90
Ejercicios: 8
MEDIDAS DE DISPERSIÓN
Varianza. Es la media de los cuadrados de las desviaciones respecto a la media. Se representa por S 2 .
(
Cuadrado de las desviaciones respecto de la media: → xi − X
∑ (x
m
Varianza: S =
2
i =1
)
i
N
2
m
2
− X ni
)
m
(
)
= ∑ xi − X . f i =
i =1
2
∑x
i =1
2
i
N
.ni
m
− X = ∑ xi2 f i − X = X 2 − X
2
2
2
i =1
16
OBSERVACIONES:
Tiene la ventaja de que las desviaciones grandes afectan más al resultado.
No tiene las mismas unidades que la variable en estudio.
Es siempre positiva.
Es nula cuando todos los valores coinciden con la media.
∑(x − X )
m
S =
2
i
i =1
2
ni
N
Desviación típica. Es la raíz cuadrada de la varianza.
∑ (x
m
S= S =
2
i =1
)
m
2
I
− X .ni
∑ (x
m
=
N
i =1
)
2
i
− X . fi =
∑x
i =1
2
i
.ni
N
−X
2
∑x
=
2
i
. fi − X
2
=
X2 −X
2
OBSERVACIONES:
Es la unidad de dispersión más utilizada.
S = S2
Las unidades son las mismas que las de la muestra.
Es siempre positiva.
Cuanto mayor sea la desviación típica, más alejados están los valores de la distribución de su valor
medio.
Haciendo las cálculos en la tabla del ejemplo anterior, se pueden calcular las medidas de dispersión de la
variable discreta de la siguiente manera:
xi
ni
(x − X ) (x − X ) (x − X ) .n
xi.ni
1
2
3
4
5
6
7
8
9
10
Totales
2
2
i
2
2
3
6
3
9
9
36
12
60
9
54
6
42
3
24
1
9
2
20
N = 50 262
i
-4,24
-3,24
-2,24
-1,24
-0,24
0,76
1,76
2,76
3,76
4,76
17,9776
10,4976
5,0176
1,5376
0,0576
0,5776
3,0976
7,6176
14,1376
22,6576
i
35,9552
31,4928
15,0528
13,8384
0,6912
5,1984
18,5856
22,8528
14,1376
45,3152
203,12
xi2
x i2 , ni
1
4
9
16
25
36
49
64
81
100
2
12
27
144
300
324
294
192
81
200
1576
i
m
∑ x .n
i
i
262
= 5, 24
N
50
VARIANZA.: la obtenemos de dos formas.
MEDIA: X=
∑ (x
m
S2 =
i =1
i=1
)
=
2
i
− X ni
N
=
203,12
= 4,0624
50
m
S =
2
∑x
i =1
2
i
N
.ni
2
−X =
1576
2
− (5,24 ) = 31,52 − 27,4576 = 4,0624
50
DESVIACIÓN TÍPICA:
S = S 2 = 4,0624 = 2,01553
17
Variable continua
Para variables agrupadas. el procedimiento es el mismo, salvo que la marca de clase hace el papel de valor
de la variable: xi
Intervalos
Marca de
clase xi
ni
xi .ni
148,5 — 153,5
153,5 — 158,5
158,5—163,5
163,5 — 168,5
168,5 — 173,5
173,5 — 178,5
151
156
161
166
171
176
2
4
11
14
5
4
302
624
1771
2324
855
704
6580
(x − X ) (x − X ) (x − X ) .n
Totales
N = 40
i
-13,5
-8,5
-3,5
1,5
6,5
11,5
i
182,25
72,25
12,25
2,25
42,25
132,25
xi2
x i2 , ni
22801
24336
25921
27556
29241
30976
45602
97344
285131
385784
146205
123904
1083970
2
2
i
364,5
289
134,75
31,5
211,25
529
1560
i
m
∑ x .n
i
i
∑( x − X )
ni
6580
= 164,5 cm Es la altura media de los adolescentes
N
40
VARIANZA.: (σ 2 ) la obtenemos de dos formas.
MEDIA: X=
i=1
m
S2 =
i =1
i
N
2
=
m
=
1560
= 39
40
S2 =
∑ x .n
2
i
i =1
N
i
2
−X =
1083970
2
− (1, 645 ) = 39
40
DESVIACIÓN TÍPICA: (σ )
S = S 2 = 39 = 19,5
Ejercicios: 5, 6, 7, 9
NOTACIÓN:
En Estadística es muy útil la notación con subíndices.
El símbolo xi (léase "x sub i") denota cualquiera de los m valores x1, x2, x3, ....., xm que una variable x puede
tomar.
La letra "i" en xi puede representar cualquiera de los números 1, 2, 3, ... m y se llama subíndice.
m
También es muy frecuente el uso del símbolo de sumatorio
∑x
i =1
i
Para indicar la suma de todas las xi desde i = 1 hasta i = m, es decir, por definición:
m
∑x
i =1
i
= x1 + x 2 + x3 + ... + xi + ...x m
En general, identificamos a las variables estadísticas por una letra mayúscula: X y entonces, xi representa el
valor o modalidad i-ésimo de la variable estadística X.
En general diremos que los valores o modalidades de la variable X son;
x1 , x 2 , x3 ,....xi ,.....x m o bien
xi desde i = 1.....m
18
EJERCICIO RESUELTO
Para las quince notas siguientes:
2, 5, 6, 1, 7, 6, 9, 6, 8, 5, 5, 4, 7, 7, 1
a) Construye una tabla de frecuencias y halla la media aritmética.
b) Calcula la varianza (σ 2 ) y la desviación típica (σ ) .
c) Halla el número de alumnos comprendidos en el intervalo (x − σ , x + σ ) .
d) Dibuja un diagrama de barras con frecuencias absolutas
e) Dibuja un polígono de frecuencias absolutas.
(x − X ) (x − X ) (x − X ) .n
ni
1
2
4
5
6
7
8
9
xi .ni
2
1
1
3
3
3
1
1
i
2
2
4
15
18
21
8
9
i
-4,3
-3,3
-1,3
-0,3
0,7
1,7
2,7
3,7
i
18,49
10,89
1,69
0,09
0,49
2,89
7,29
13,69
x i2 , ni
i
36,98
10,89
1,69
0,27
1,47
8,67
7,29
13,69
79
N = 15
xi2
2
2
xi
1
4
16
25
36
49
64
81
2
4
16
75
108
147
64
81
497
80,95
m
∑ x .n
i
i=1
MEDIA: X=
N
i
=
79
= 5,3
15
Es la nota media
VARIANZA.: la obtenemos de dos formas.
∑(
m
S2 =
i =1
xi − X
)
m
2
.ni
N
80,95
=
= 5, 4
15
S2 =
∑ x .n
i =1
2
i
N
i
2
−X =
497
2
− ( 5,3) = 5, 4
15
DESVIACIÓN TÍPICA:
S = S 2 = 5, 4 = 2, 7
INTERVALO
(x − σ , x + σ )
(x − σ , x + σ ) :
= ( 5,3 − 2, 7 , 5,3 + 2, 7 ) = (2.6 , 8) 11 alumnos (11/15 = 73%)
19
EJERCICIOS
1)
El número de hermanos de los alumnos de una clase es el siguiente:
010032140011201
120112130021235
a) Efectúa el recuento.
b) Elabora una tabla de frecuencias en las que se incluyan: frecuencia absoluta, absoluta
acumulada, relativa y relativa acumulada.
c) Dibuja un diagrama de barras con frecuencias absolutas acumuladas y un polígono de
frecuencias absolutas.
d) Calcula la media, la moda y la mediana.
2)
Se ha lanzado un dado 20 veces y se han obtenido los siguientes resultados:
3, 4, 5, 2, 1, 4, 6, 1, 3, 2,
5, 5, 3, 2, 4, 4, 1, 2, 5, 6
a) Construir la tabla de frecuencias.
b) Representar los datos con un diagrama de barras y un diagrama de sectores.
c) ¿Cuál a sido la puntuación media obtenida?.
d) Calcula la moda y la mediana
3)
La dirección de tráfico ha recogido la siguiente información relativa al número de multas diarias que
sus agentes han impuesto en una autopista. Hallar todos los parámetros de la muestra e interpretarlos.
Multas
[0,5)
[5,10)
[10,15)
[15,20)
4)
Días
6
14
20
10
Se ha pasado un test de 79 preguntas a 600 personas. El número de respuestas correctas se refleja en
la siguiente tabla. Calcula la media, la moda y la mediana
Aciertos
[0,10)
[10,20)
[20,30)
[30,40)
[40,50)
[50,60)
[60,70)
[70,80)
Personas
40
60
75
90
105
85
80
65
20
5)
Peso
n
[10,12)
4
[12,14)
7
[14,16)
13
[16,18)
10
[18,20]
6
Xi ni
F
De la distribución de frecuencias absolutas representada en la
tabla, calcular:
a) La media aritmética y la desviación típica
b) ¿Entre qué valores se encuentran los veinte pesos centrales?
c) Represente el polígono de frecuencias absolutas acumuladas.
6)
1
2
2
0,04
6
3
4
La tabla siguiente representa las frecuencias absolutas , ni , las
frecuencias absolutas acumuladas, Fi , y las frecuencias relativas
fi , correspondientes a la distribución de una variable estadística
X i:
0,16
a)
Complete los datos que faltan en la tabla y representar la
distribución mediante una gráfica adecuada.
b) Calcule la media, la moda y la desviación típica de la distribución.
6
5
6
f
30
5
7
0,2
8
7)
Puntuaciones
Nº de
(38,44]
4
(44,50]
12
(50,56]
10
(56,62]
30
(62,68]
20
(68,74]
8
(74,80]
6
Se ha aplicado un test, sobre satisfacción en el trabajo, a 90
empleados de una fábrica, obteniéndose los siguientes
resultados:
a) Calcule la media y la mediana.
b) Calcule el coeficiente de variación.
8)
Hallar de los ejercicios 1,2,3 y 4
a) Q1 ; Q2 y Q3
b) D3 ; D5 y D8
c) P33 ; P50 y P80
9)
Hallar de los ejercicios 1,2,3 y 4
a) Desviación media
b) Varianza
c) Desviación típica
d) Coeficiente de variación
21
Descargar