ESTADÍSTICA DESCRIPTIVA 1. Conceptos Generales Población estadı́stica.- Conjunto de todos los elementos sobre el que recaen las observaciones. Las poblaciones pueden ser: • infinitas, p.e. extracciones con reemplazamiento de una bolsa, • finitas, p.e. pacientes de un centro médico. Unidad estadı́stica o individuo.- Cada uno de los elementos que componen la población. Este nombre se debe al origen demográfico de la estadı́stica descriptiva. Muestra.- Subconjunto de elementos de la población. Para extraer conclusiones sobre la población, hay que elegir una muestra representativa de ella. El número de elementos de la muestra se llama tamaño de la muestra. Se realiza un censo cuando se observan todos los elementos de la población. Carácter.- Cualidad o propiedad en un individuo. • Cada carácter de los individuos de la población puede representar varias modalidades, de tal forma que cada individuo de la población presenta una y solamente una de las modalidades del carácter. Ejemplo 1.1. Considerando una muestra de mujeres ingresadas en una maternidad, el carácter estado civil puede presentar las siguientes modalidades: solteras, casadas, viudas, no consta. 1 • Se dice que un carácter es cualitativo si sus modalidades no son medibles. Y que es cuantitativo en caso contrario. Ejemplo 1.2. Considerando la población formada por los pacientes de un centro médico son caracteres cualitativos el sexo o el estado civil, y son caracteres cuantitativos el peso, la edad, la altura o las pulsaciones por minuto. Variable estadı́stica.- Valores numéricos de las distintas modalidades de un carácter estadı́stico. Se clasifican en: • discretas, que solo pueden tomar valores aislados. Generalmente, las variables estadı́sticas discretas toman valores sobre el conjunto de los números enteros. Ejemplo: número de hijos de mujeres ingresadas en una maternidad. • continuas, que pueden tomar infinitos valores en un intervalo dado. Ejemplo: temperatura de un paciente. Existen variables cuantitativas que son continuas por naturaleza, pero que debido a la precisión de los aparatos empleados para medirlas aparecen como discretas. Tal es el caso de una báscula que ofrece 100 gramos de precisión. Las medidas que se pueden obtener con ella en kg son: 10.1, 10.2, 10.3, . . . . En realidad, lo que representa cada valor es que el peso del objeto en cuestión se encuentra en un intervalo de radio 0.05. 2. Ordenación de datos. Distribuciones de un carácter Consideremos una población estadı́stica de N individuos, y una variable estadı́stica X que puede tomar los valores x1 , x2 , . . . , xk , pero cada uno de ellos repetido más de una vez. 2 Ejemplo 2.1. El siguiente conjunto de datos representa el número de cigarrillos fumados al dı́a para un cierto número (N = 60) de mujeres embarazadas: 2 1 5 1 1 7 7 2 7 6 9 6 8 6 5 4 3 10 8 7 8 4 6 5 6 4 9 8 7 7 6 6 2 7 9 1 7 7 4 7 8 8 8 6 9 3 5 4 9 7 2 7 10 1 6 8 8 5 3 1 Recorrido.- Diferencia entre el mayor y menor valor que toma la variable. Frecuencia absoluta (ni ) de un valor xi de la variable X.- Número de veces que aparece repetido en el conjunto de las observaciones realizadas. Frecuencia relativa (fi ).- Viene dada por fi = número de observaciones. ni , N donde N es el Frecuencia absoluta acumulada (Ni ).- Suma de las frecuencias absolutas de los valores menores o iguales a xi . Frecuencia relativa acumulada (Fi ).- Viene dada por Fi = Pi nj Pi j=1 N = j=1 fj Ni N = Tabla de frecuencias de una variable discreta.- Se construye ordenando los distintos valores de la variable de menor a mayor y anotando las distintas frecuencias: xi ni fi Ni Fi Ejemplo 2.2. Construir la tabla de frecuencias correspondiente al ejemplo anterior. 3 xi 1 2 3 4 5 6 7 8 9 10 2 1 5 2.1. 1 1 7 7 2 7 6 9 6 ni 6 4 3 5 5 9 12 9 5 2 8 6 5 4 3 10 fi 0.1 0.067 0.05 0.083 0.083 0.15 0.2 0.15 0.083 0.033 8 7 8 4 6 5 6 4 9 8 7 7 Ni 6 10 13 18 23 32 44 53 58 60 6 6 2 7 9 1 Propiedades de las frecuencias 1. n1 + n2 + . . . + nk = N 2. f1 + f2 + . . . + fk = 1 3. Nk = N 4. Fk = 1 5. 0 ≤ ni ≤ N 6. 0 ≤ fi ≤ 1 7. Ni = Ni−1 + ni 8. ( %)xi = fi × 100 4 Fi 0.1 0.167 0.217 0.3 0.383 0.533 0.733 0.883 0.967 1 7 7 4 7 8 8 8 6 9 3 5 4 9 7 2 7 10 1 6 8 8 5 3 1 2.2. Tratamiento de variables agrupadas en intervalos de clase En caso de disponer de pocas observaciones se tienen pocos valores para la variable en estudio. Aunque se disponga de muchas observaciones, se pueden tener pocos valores distintos. Ahora bien, en caso de tener muchas observaciones y muchos valores distintos, agruparemos los valores en intervalos. Hay que elegir la amplitud del intervalo de modo que no se pierda mucha información. A la diferencia entre el extremo superior y el inferior se le llama amplitud del intervalo. Se distinguen: intervalos de amplitud constante. intervalos de amplitud variable. En general es conveniente agrupar los datos en intervalos de igual tamaño. Los intervalos también podemos elegirlos: semiabiertos [a, b), [b, c), . . . con lı́mites reales de clase.- No se solapan. Por ejemplo: 120 − 139, 140 − 159, ... Conviene elegir en este caso intervalos que contengan a éstos, que no modifiquen las frecuencias y que se solapen, por ejemplo 119,5 − 139,5, 139,5 − 159,5, . . . A estos extremos se les llama lı́mites reales de clase. La marca de clase es el punto medio de cada intervalo y es el que representa la información que contiene el intervalo. Para construir la tabla de frecuencias de una variable agrupada en intervalos trabajamos con la marca de clase. Intervalo M. de clase ni 5 fi Ni Fi 3. Representaciones Gráficas Las tablas estadı́sticas proporcionan un resumen de los datos disponibles de una población. Esto permite realizar un análisis rápido de los datos. Para poder realizar un rápido análisis visual de las caracterı́sticas de la población se usan gráficos y diagramas. Veamos algunos de los más empleados. Representación gráfica de caracteres cualitativos • Diagrama de barras.- En el eje de abscisas se representan las modalidades del carácter cualitativo, y se levantan rectángulos cuyas bases miden todas lo mismo y cuyas alturas son las frecuencias absolutas. Ejemplo 3.1. Cualitativo discreto: Mujeres ingresadas en una maternidad según su estado civil. Estado civil Solteras Casadas Viudas No consta No mujeres 3981 68637 150 646 • Diagrama de sectores.- Consiste en representar mediante sectores circulares las distintas modalidades de un carácter. Los sectores circulares han de tener un ángulo central proporcional a la frecuencia absoluta correspondiente, por lo que el área del sector circular será proporcional a la frecuencia absoluta. 6 Ejemplo 3.2. Distribución de profesionales sanitarios en el año pasado. Profesionales Médicos Odontólogos Farmacéuticos Veterinarios ATS Frecuencias 51594 3613 17498 7462 25723 Representación gráfica de caracteres cuantitativos • Diagrama de barras.- La definición es análoga al caso de caracteres cualitativos. Ejemplo 3.3. Cuantitativo discreto: Distribución de lotes según número de piezas defectuosas. No piezas defectuosas por lote 1 2 3 4 5 6 Frecuencia 6 14 16 7 5 2 En este ejemplos se ha representado en el eje de ordenadas la frecuencia absoluta ni . También podrı́amos representar la 7 frecuencia relativa fi . La unión de los puntos medios de las bases superiores de los rectángulos se denomina polı́gono de frecuencias, y también se ha representado en el ejemplo. • Histograma.- Se utiliza para variables agrupadas en intervalos de clase, y consiste en representar, mediante un rectángulo, cada una de las modalidades, de manera que las alturas de los rectángulos sean iguales a las frecuencias de clase, suponiendo que todas las clases tengan igual tamaño. Si no es ası́, las alturas han de ser calculadas, de manera que las áreas de los rectángulos han de ser proporcionales a las frecuencias de cada clase. La altura del i-ésimo rectángulo viene dada por: hi = fi ni , ó hi = , ci ci donde ci es la longitud del i-ésimo intervalo. Ejemplo 3.4. Distribución de pesos para una determinada muestra poblacional. Peso (kg) 30-40 40-50 50-60 60-70 Frecuencia (miles) 29 127 16 24 El polı́gono de frecuencias, también representado en el ejemplo anterior, es la lı́nea que une los puntos medios de las bases superiores de los rectángulos de un histograma de frecuencias. 8 • Diagrama de frecuencias acumuladas.- Se emplea para variables discretas. En el eje x se representan los valores x1 , x2 , ..., xk de la variable, y en el eje y sus frecuencias acumuladas, que pueden ser absolutas o relativas. • Polı́gono de frecuencias acumuladas.- Se emplea para variables estadı́sticas agrupadas en intervalos. En el eje x se representan los intervalos, y en el eje y sus frecuencias acumuladas, que pueden ser absolutas o relativas. 9