ESTADÍSTICA DESCRIPTIVA

Anuncio
ESTADÍSTICA DESCRIPTIVA
1.
Conceptos Generales
Población estadı́stica.- Conjunto de todos los elementos sobre el
que recaen las observaciones. Las poblaciones pueden ser:
• infinitas, p.e. extracciones con reemplazamiento de una bolsa,
• finitas, p.e. pacientes de un centro médico.
Unidad estadı́stica o individuo.- Cada uno de los elementos que
componen la población. Este nombre se debe al origen demográfico
de la estadı́stica descriptiva.
Muestra.- Subconjunto de elementos de la población. Para extraer
conclusiones sobre la población, hay que elegir una muestra representativa de ella. El número de elementos de la muestra se llama
tamaño de la muestra. Se realiza un censo cuando se observan
todos los elementos de la población.
Carácter.- Cualidad o propiedad en un individuo.
• Cada carácter de los individuos de la población puede representar varias modalidades, de tal forma que cada individuo de
la población presenta una y solamente una de las modalidades
del carácter.
Ejemplo 1.1. Considerando una muestra de mujeres ingresadas en una maternidad, el carácter estado civil puede presentar las siguientes modalidades: solteras, casadas, viudas, no
consta.
1
• Se dice que un carácter es cualitativo si sus modalidades no
son medibles. Y que es cuantitativo en caso contrario.
Ejemplo 1.2. Considerando la población formada por los pacientes de un centro médico son caracteres cualitativos el sexo o el estado civil, y son caracteres cuantitativos el peso,
la edad, la altura o las pulsaciones por minuto.
Variable estadı́stica.- Valores numéricos de las distintas modalidades de un carácter estadı́stico. Se clasifican en:
• discretas, que solo pueden tomar valores aislados. Generalmente, las variables estadı́sticas discretas toman valores sobre
el conjunto de los números enteros. Ejemplo: número de hijos
de mujeres ingresadas en una maternidad.
• continuas, que pueden tomar infinitos valores en un intervalo
dado. Ejemplo: temperatura de un paciente.
Existen variables cuantitativas que son continuas por naturaleza, pero que debido a la precisión de los aparatos empleados para medirlas aparecen como discretas. Tal es el caso de una báscula que
ofrece 100 gramos de precisión. Las medidas que se pueden obtener con ella en kg son: 10.1, 10.2, 10.3, . . . . En realidad, lo que
representa cada valor es que el peso del objeto en cuestión se encuentra en un intervalo de radio 0.05.
2.
Ordenación de datos. Distribuciones de un
carácter
Consideremos una población estadı́stica de N individuos, y una variable estadı́stica X que puede tomar los valores x1 , x2 , . . . , xk , pero cada
uno de ellos repetido más de una vez.
2
Ejemplo 2.1. El siguiente conjunto de datos representa el número de cigarrillos fumados al dı́a para un cierto número (N = 60) de mujeres embarazadas:
2
1
5
1
1
7
7
2
7
6
9
6
8
6
5
4
3
10
8
7
8
4
6
5
6
4
9
8
7
7
6
6
2
7
9
1
7
7
4
7
8
8
8
6
9
3
5
4
9
7
2
7
10
1
6
8
8
5
3
1
Recorrido.- Diferencia entre el mayor y menor valor que toma la
variable.
Frecuencia absoluta (ni ) de un valor xi de la variable X.- Número
de veces que aparece repetido en el conjunto de las observaciones
realizadas.
Frecuencia relativa (fi ).- Viene dada por fi =
número de observaciones.
ni
,
N
donde N es el
Frecuencia absoluta acumulada (Ni ).- Suma de las frecuencias
absolutas de los valores menores o iguales a xi .
Frecuencia relativa acumulada (Fi ).- Viene dada por Fi =
Pi nj Pi
j=1 N =
j=1 fj
Ni
N
=
Tabla de frecuencias de una variable discreta.- Se construye ordenando los distintos valores de la variable de menor a mayor y
anotando las distintas frecuencias:
xi
ni
fi
Ni
Fi
Ejemplo 2.2. Construir la tabla de frecuencias correspondiente al
ejemplo anterior.
3
xi
1
2
3
4
5
6
7
8
9
10
2
1
5
2.1.
1
1
7
7
2
7
6
9
6
ni
6
4
3
5
5
9
12
9
5
2
8
6
5
4
3
10
fi
0.1
0.067
0.05
0.083
0.083
0.15
0.2
0.15
0.083
0.033
8
7
8
4
6
5
6
4
9
8
7
7
Ni
6
10
13
18
23
32
44
53
58
60
6
6
2
7
9
1
Propiedades de las frecuencias
1. n1 + n2 + . . . + nk = N
2. f1 + f2 + . . . + fk = 1
3. Nk = N
4. Fk = 1
5. 0 ≤ ni ≤ N
6. 0 ≤ fi ≤ 1
7. Ni = Ni−1 + ni
8. ( %)xi = fi × 100
4
Fi
0.1
0.167
0.217
0.3
0.383
0.533
0.733
0.883
0.967
1
7
7
4
7
8
8
8
6
9
3
5
4
9
7
2
7
10
1
6
8
8
5
3
1
2.2.
Tratamiento de variables agrupadas en intervalos
de clase
En caso de disponer de pocas observaciones se tienen pocos valores
para la variable en estudio. Aunque se disponga de muchas observaciones, se pueden tener pocos valores distintos. Ahora bien, en caso de tener
muchas observaciones y muchos valores distintos, agruparemos los valores en intervalos.
Hay que elegir la amplitud del intervalo de modo que no se pierda
mucha información. A la diferencia entre el extremo superior y el inferior
se le llama amplitud del intervalo. Se distinguen:
intervalos de amplitud constante.
intervalos de amplitud variable.
En general es conveniente agrupar los datos en intervalos de igual
tamaño.
Los intervalos también podemos elegirlos:
semiabiertos [a, b), [b, c), . . .
con lı́mites reales de clase.- No se solapan. Por ejemplo:
120 − 139, 140 − 159, ...
Conviene elegir en este caso intervalos que contengan a éstos, que
no modifiquen las frecuencias y que se solapen, por ejemplo
119,5 − 139,5, 139,5 − 159,5, . . .
A estos extremos se les llama lı́mites reales de clase. La marca
de clase es el punto medio de cada intervalo y es el que representa
la información que contiene el intervalo. Para construir la tabla de
frecuencias de una variable agrupada en intervalos trabajamos con
la marca de clase.
Intervalo
M. de clase ni
5
fi
Ni
Fi
3.
Representaciones Gráficas
Las tablas estadı́sticas proporcionan un resumen de los datos disponibles de una población. Esto permite realizar un análisis rápido de los
datos. Para poder realizar un rápido análisis visual de las caracterı́sticas
de la población se usan gráficos y diagramas. Veamos algunos de los más
empleados.
Representación gráfica de caracteres cualitativos
• Diagrama de barras.- En el eje de abscisas se representan las
modalidades del carácter cualitativo, y se levantan rectángulos
cuyas bases miden todas lo mismo y cuyas alturas son las frecuencias absolutas.
Ejemplo 3.1. Cualitativo discreto: Mujeres ingresadas en una
maternidad según su estado civil.
Estado civil
Solteras
Casadas
Viudas
No consta
No mujeres
3981
68637
150
646
• Diagrama de sectores.- Consiste en representar mediante sectores circulares las distintas modalidades de un carácter. Los
sectores circulares han de tener un ángulo central proporcional
a la frecuencia absoluta correspondiente, por lo que el área del
sector circular será proporcional a la frecuencia absoluta.
6
Ejemplo 3.2. Distribución de profesionales sanitarios en el año
pasado.
Profesionales
Médicos
Odontólogos
Farmacéuticos
Veterinarios
ATS
Frecuencias
51594
3613
17498
7462
25723
Representación gráfica de caracteres cuantitativos
• Diagrama de barras.- La definición es análoga al caso de caracteres cualitativos.
Ejemplo 3.3. Cuantitativo discreto: Distribución de lotes según
número de piezas defectuosas.
No piezas
defectuosas
por lote
1
2
3
4
5
6
Frecuencia
6
14
16
7
5
2
En este ejemplos se ha representado en el eje de ordenadas
la frecuencia absoluta ni . También podrı́amos representar la
7
frecuencia relativa fi . La unión de los puntos medios de las
bases superiores de los rectángulos se denomina polı́gono de
frecuencias, y también se ha representado en el ejemplo.
• Histograma.- Se utiliza para variables agrupadas en intervalos
de clase, y consiste en representar, mediante un rectángulo,
cada una de las modalidades, de manera que las alturas de
los rectángulos sean iguales a las frecuencias de clase, suponiendo que todas las clases tengan igual tamaño. Si no es ası́,
las alturas han de ser calculadas, de manera que las áreas de
los rectángulos han de ser proporcionales a las frecuencias de
cada clase. La altura del i-ésimo rectángulo viene dada por:
hi =
fi
ni
, ó hi = ,
ci
ci
donde ci es la longitud del i-ésimo intervalo.
Ejemplo 3.4. Distribución de pesos para una determinada muestra poblacional.
Peso
(kg)
30-40
40-50
50-60
60-70
Frecuencia
(miles)
29
127
16
24
El polı́gono de frecuencias, también representado en el ejemplo anterior, es la lı́nea que une los puntos medios de las bases
superiores de los rectángulos de un histograma de frecuencias.
8
• Diagrama de frecuencias acumuladas.- Se emplea para variables discretas. En el eje x se representan los valores x1 , x2 ,
..., xk de la variable, y en el eje y sus frecuencias acumuladas,
que pueden ser absolutas o relativas.
• Polı́gono de frecuencias acumuladas.- Se emplea para variables estadı́sticas agrupadas en intervalos. En el eje x se representan los intervalos, y en el eje y sus frecuencias acumuladas,
que pueden ser absolutas o relativas.
9
Descargar