Estadística Descriptiva

Anuncio
I.E.S. “Salvador Serrano” de Alcaudete
Departamento de Matemáticas – 2º ESO 2011 / 12
TEMA 8: ESTADÍSTICA DESCRIPTIVA.
8.1 Introducción.
La palabra “ESTADÍSTICA” procede del vocablo “Estado”, pues era función principal de los
gobiernos de los Estados establecer registros de población, nacimientos, defunciones, cosechas,
impuestos, etc.
Desde su origen, que se remonta a los trabajos demográficos de John Graunt sobre la
mortalidad de los habitantes de Londres en 1660, la Estadística Descriptiva ha recibido numerosa
definiciones, una de ellas es la siguiente: “La Estadística Descriptiva es un método de
descripción numérica de conjuntos numerosos”. Se opone a los métodos de descripción
cualitativos más ricos y más matizados en el detalle, pero limitados en su carácter impreciso y
subjetivo. “Al lenguaje de la letra la Estadística opone el lenguaje de los números”.
La Estadística no se ocupa de los casos raros que, en general, son mal conocidos, la
anécdota no pertenece al dominio estadístico, lo cual separa al estadístico del especialista de lo
excepcional que es el periodista.
La Estadística Descriptiva es una herramienta que se aplica a todos los dominios de la
investigación cuantitativa: demografía, economía, agronomía, biología, medicina, industria,… No
obstante la crítica e interpretación de los resultados obtenidos, no son propiamente hablando, de
la competencia de la Estadística Descriptiva. En ocasiones se la condena por el mal uso que se
hace de ella, sobre todo en el ámbito político y periodístico, que la utilizan para manipular y
argumentar conclusiones preestablecidas e interesadas.
8.2 Conceptos: Definiciones y Nomenclatura.
⇒ Población y Muestra:
Se llama POBLACIÓN al conjunto de todos los elementos que cumplen una determinada
condición. Los elementos de la población se llaman individuos (origen demográfico) o unidades
estadísticas.
Se llama MUESTRA a cualquier subconjunto de la población. El número de individuos de la
muestra o de la población se llama tamaño.
EJEMPLO: En un sondeo de opinión realizado para conocer la intención de voto de los
habitantes de una ciudad, la Población estará formada por el conjunto de todos los ciudadanos
con derecho a voto. De ella se extraerá un conjunto de personas a las que se entrevistará, este
conjunto constituirá la Muestra.
1
I.E.S. “Salvador Serrano” de Alcaudete
Departamento de Matemáticas – 2º ESO 2011 / 12
⇒ Caracteres y Modalidades:
Se llama CARÁCTER ESTADÍSTICO a una propiedad que permite clasificar a los
individuos de la población; se distinguen dos tipos:
○ Carácter Estadístico Cuantitativo: Es aquél que se puede medir numéricamente.
○ Carácter Estadístico Cualitativo: Es aquél que no se puede medir numéricamente.
Se llaman MODALIDADES de un carácter a cada una de las situaciones que puede presentar.
⇒ Variables Estadísticas y Atributos:
Al conjunto de las modalidades de un carácter cuantitativo se le denomina VARIABLE
ESTADÍSTICA, y al de un carácter cualitativo ATRIBUTO. Se distinguen dos tipos de Variables
Estadísticas:
○ Variable Estadística Discreta: cuando la variable toma números aislados, que se
puedan separar.
○ Variable Estadística Continua: cuando la variable toma valores continuos, todos los que
hay entre dos números. No las estudiaremos en este curso.

Cuantitativos → Variable Estadística
CARACTERES 

 Cualitativos → Atributo
 Discreta

Continua
EJEMPLOS:
• Caracteres cuantitativos: Talla de un individuo, diámetro de una pieza industrial, deuda de los
estados, calificación de un alumno en cierto examen.
• Caracteres cualitativos: La profesión de un trabajador, El estado civil de una persona, el color
de los ojos de un individuo, el idioma elegido por un alumno en la ESO.
Variable estadística: Talla de un individuo: X = {1.62, 1.76, 1.81, 1.73, ...}
• Variables estadísticas discretas: nº de empleados de una fábrica, nº de hijos de las
familias de Alcaudete.
• Variables estadísticas continuas: diámetro de las ruedas de varios coches, talla de los
alumnos de la clase.
Atributo: Profesión de los padres de los alumnos de la clase: agricultor, carnicero, carpintero,
camionero, comerciante,...
2
I.E.S. “Salvador Serrano” de Alcaudete
Departamento de Matemáticas – 2º ESO 2011 / 12
8.3 Frecuencias Absolutas y Relativas. Tablas Estadísticas.
Partimos de una población de individuos a los que pretendemos estudiar un carácter que presenta
distintas modalidades.
⇒ Frecuencias absolutas:
○ Se llama FRECUENCIA ABSOLUTA de cierta modalidad, al número de individuos que la
presenta. Se notan como: n1, n2, n3, …
La suma de todas coincide con el tamaño de la población.
○ Se llama FRECUENCIA ABSOLUTA ACUMULADA de cierto valor de una variable
estadística, a la suma de las frecuencias absolutas de todos los valores menores o
iguales. Se notan como: N1, N2, N3, …
La última coincide con el tamaño de la población.
Sólo tiene sentido en el estudio de los caracteres cuantitativos (variable estadística).
⇒ Frecuencias relativas:
○ Se llama FRECUENCIA RELATIVA de cierta modalidad, al cociente entre la frecuencia
absoluta de la modalidad y el tamaño de la población, se notan como:
f1 =
n1
,
N
f2 =
n2
,
N
f3 =
n3
, ... con N, el tamaño de la población
N
Si las multiplicamos por 100 obtenemos los porcentajes de cada modalidad.
La suma de todas coincide con 1 y la suma de los porcentajes con 100.
○ Se llama FRECUENCIA RELATIVA ACUMULADA de cierto valor de una variable
estadística, a la suma de las frecuencias relativas de todos los valores menores o
iguales.
Se pueden calcular con las frecuencias absolutas acumuladas.
F1 =
N1
,
N
F2 =
N2
,
N
F3 =
N3
, ... con N, el tamaño de la población
N
Si las multiplicamos por 100 obtenemos los porcentajes acumulados de valor de la
variable
La última coincide con 1 y el último porcentaje con 100
Sólo tiene sentido en el estudio de los caracteres cuantitativos (variable estadística).
Veamos con un ejemplo como se organizan las frecuencias anteriores en una tabla.
3
I.E.S. “Salvador Serrano” de Alcaudete
Departamento de Matemáticas – 2º ESO 2011 / 12
EJEMPLO: Calificaciones en Matemáticas de los 30 alumnos de una clase:
5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7.
• Población: Los alumnos de cierta clase. (Los individuos son los alumnos de la clase)
• Tamaño de la población: N = 30
• Carácter: Nota en Matemáticas (CUANTITATIVO) (Las modalidades son las notas)
• Variable estadística: X: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 (VARIABLE ESTADÍSTICA DISCRETA)
X
0
1
2
3
4
5
6
7
8
9
n
2
3
1
1
1
3
2
5
7
5
30
N
2
5
6
7
8
11
13
18
25
30
f
0,07
0,10
0,03
0,03
0,03
0,10
0,07
0,17
0,23
0,17
1,00
F
0,07
0,17
0,20
0,23
0,26
0,36
0,43
0,60
0,83
1,00
%
7
10
3
3
3
10
7
17
23
17
100
% ac.
7
17
20
23
26
36
43
60
83
100
8.4 Gráficos Estadísticos.
Aunque las tablas encierran toda la información disponible, es necesario traducirla a un
gráfico para sintetizar visualmente la información. Según la naturaleza del carácter estudiado se
utilizan distintos tipos de gráficos. En este tema sólo vamos a estudiar: diagramas de barras,
polígonos de frecuencias y diagramas de sectores. En el libro puedes estudiar otros tipos de
gráficos.
⇒ Diagrama de Barras o Bastones:
Se representan sobre el eje horizontal los valores de la variable, y sobre el eje vertical las
frecuencias (absolutas, relativas o acumuladas). A continuación, por los valores de la variable se
levantan barras verticales de longitudes iguales a las frecuencias que se quieran representar.
4
I.E.S. “Salvador Serrano” de Alcaudete
Departamento de Matemáticas – 2º ESO 2011 / 12
EJEMPLO: Tomamos los datos del ejemplo anterior.
Frecuencias absolutas
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
Calificaciones
⇒ Polígono de Frecuencias:
Completa el gráfico anterior, se dibuja uniendo los extremos de las barras.
Frecuencias absolutas
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
Calificaciones
⇒ Diagrama de Sectores:
Se representan las distintas modalidades de un carácter mediante sectores circulares. El
ángulo central de cada sector ha de ser proporcional a la frecuencia. Hay que establecer en la
tabla de frecuencias, las proporciones entre los porcentajes y los ángulos de cada modalidad.
5
I.E.S. “Salvador Serrano” de Alcaudete
Departamento de Matemáticas – 2º ESO 2011 / 12
EJEMPLO: Estudiamos el nº de hijos por familia en una muestra de 24 familias.
X: 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3.
X
n
0
2
f
F
% ac Áng. Áng. Ac.
8
8
290
290
0.5
42
50
1510
1800
0.08 0.08
1 10 0.42
%
2
8
0.33 0.83
33
83
1190
2990
3
4
0.17
17
100
610
3600
24
1
1
3600
100
3
17%
0
8%
0
1
2
3
2
33%
1
42%
8.5 Parámetros Estadísticos: Reducción de Datos.
El proceso de Reducción de Datos tiene como objetivo: resumir y sintetizar un gran número
de datos en unos pocos números (Parámetros Estadísticos), que nos proporcionan una idea, lo
más aproximada posible, de todos los datos. Es evidente que todo proceso de síntesis conlleva
una pérdida de información, pero se gana en el hecho de que es más fácil trabajar con unos
pocos parámetros, con significado muy preciso, que con la totalidad de los datos.
Distinguiremos entre PARÁMETROS DE CENTRALIZACIÓN, nos informan de lo que
ocurre en el centro del conjunto de datos; y los PARÁMETROS DE DISPERSIÓN, que nos
informan de cómo de homogéneos son los datos y les dan significación a los primeros.
6
I.E.S. “Salvador Serrano” de Alcaudete
Departamento de Matemáticas – 2º ESO 2011 / 12
PARÁMETROS DE CENTRALIZACIÓN.
⇒ Media Aritmética:
Se llama MEDIA ARITMÉTICA de una variable (carácter cuantitativo) a la suma de todos
los datos, dividida por el tamaño de la población. Se nota x
x=
x1 · n1 + x 2 · n 2 + x 3 · n3 + ...
n1 + n 2 + n3 + ...
OBSERVACIONES:
○ Es el parámetro más utilizado.
○ Tiene en cuenta todos los datos.
○ Su cálculo es sencillo.
○ No está definido para caracteres cualitativos.
○ Los datos raros pueden afectar negativamente su representatividad.
EJEMPLO: Seguimos con los datos del ejemplo anterior:
X
n
x·n
0
2
0
1 10
10
2
8
16
3
4
12
24
38
x=
x 1 · n1 + x 2 · n 2 + x 3 · n 3 + ... 0 + 10 + 16 + 12 38
=
=
≈ 1.58
n1 + n 2 + n 3 + ...
24
24
⇒ Moda:
Se llama MODA de una variable o atributo, a la modalidad que presenta una mayor
frecuencia absoluta. Se nota M0
OBSERVACIONES:
○ No tiene porque ser única.
○ En caracteres cualitativos es muy útil, por no existir la media.
○ El no tener en cuenta todos los datos le resta representatividad.
○ No siempre se sitúa en el centro del conjunto de datos.
○ No se ve afectada por los datos raros, poco frecuentes.
○ Su cálculo e interpretación es muy sencilla.
7
I.E.S. “Salvador Serrano” de Alcaudete
Departamento de Matemáticas – 2º ESO 2011 / 12
EJEMPLO: Seguimos con los datos del ejemplo anterior:
X
n
0
2
1 10
2
8
3
4
Máximo de n : 10
⇒
MO = 1
24
⇒ Mediana:
Se llama MEDIANA de una variable (carácter cuantitativo), al valor de la variable, que
ordenados los datos, deja el mismo número a la izquierda (menores que él) que a su derecha
(mayores que él). Se nota M.
Para su cálculo tomamos el primer valor de la variable que supere en frecuencia absoluta
acumulada, a la mitad del número de datos (tamaño de la población); si coincidieran se tomará
como mediana el valor medio de ese valor y el siguiente.
OBSERVACIONES:
○ No está definido para caracteres cualitativos.
○ No se ve afectados por los valores extremos, puesto que no depende de los valores de
los datos sino de su orden.
EJEMPLO: Calificaciones en Matemáticas de los 30 alumnos de una clase:
5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7
Ordenamos los datos: 0, 0, 1, 1, 1, 2, 3, 4, 5, 5, 5, 6, 6, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9
M=7
X
0
1
2
3
4
5
6
7
8
9
n
2
3
1
1
1
3
2
5
7
5
30
N
2
5
6
7
8
11
13
18
25
30
N 30
=
= 15
2
2
El primer valor de N que supera a 15 es 18
que corresponde al valor de la variable 7
Por tanto M = 7
8
I.E.S. “Salvador Serrano” de Alcaudete
Departamento de Matemáticas – 2º ESO 2011 / 12
PARÁMETROS DE DISPERSIÓN.
Tratan de darnos información sobre la agrupación de los datos en torno de los parámetros
de centralización. Nos indican si la población, con respecto a un carácter, es más o menos
homogénea, es decir, cómo de dispersos aparecen los datos. A menos dispersión, más
representativos serán los parámetros de centralización.
Sólo están definidos para caracteres cuantitativos.
⇒ Rango o Recorrido:
Se llama RANGO o RECORRIDO de una variable estadística, a la diferencia entre el mayor
valor y el menor valor de la variable, se nota como R.
OBSERVACIONES:
○ A menor Rango, mayor representatividad de los parámetros de centralización.
○ Su cálculo es muy sencillo.
○ Depende sólo de los datos extremos, no tiene en cuenta al resto, por lo que es muy
sensible valores erróneos de la muestra.
○ Se aplica sobre todo en los “Controles de Calidad”.
EJEMPLO: En el ejemplo sobre las calificaciones en Matemáticas de 30 alumnos.
El mayor valor de la variable es 9 y el menor es 0. Por tanto R = 9 – 0 = 9.
⇒ Varianza y Desviación Típica:
Se define la VARIANZA de una variable estadística, como la media aritmética de las
desviaciones cuadráticas con respecto a la media. Se nota como Var( X ).
2
n · x + n1· x 1 + n1 · x 1 + ...
Var (X ) = 1 1
−x
n1 + n 2 + n3 + ...
2
2
2
Se define la DESVIACIÓN TÍPICA de una variable estadística como la raíz cuadrada positiva de
su varianza. Se nota como s.
s = + Var (X )
9
I.E.S. “Salvador Serrano” de Alcaudete
Departamento de Matemáticas – 2º ESO 2011 / 12
OBSERVACIONES:
○ Se define de manera objetiva.
○ Usa todos los datos.
○ Su cálculo es sencillo, pero pesado.
○ No tiene un sentido concreto en sí misma y tiene significado para valorar la
representatividad de la media aritmética.
○ La desviación típica se mide en las mismas unidades que los datos, la varianza lo hace
en unidades cuadradas.
EJEMPLO: Retomamos el ejemplo del nº de hijos por familia en una muestra de 20 familias.
x · n x2 · n
X
n
0
2
0
0
1 10
10
10
x=
x 1 · n1 + x 2 · n 2 + x 3 · n 3 + ... 0 + 10 + 16 + 12 38
=
=
= 1.58
n1 + n 2 + n 3 + ...
24
24
Var (X ) =
2
x 1 · n1 + x 2 · n 2 + x 3 · n 3 + ...
0 + 10 + 32 + 36
2
−x =
− (1.58 ) =
N
24
2
2
2
2
8
16
32
3
4
12
36
=
24
38
78
s = + Var (X ) = 0.753 = 0.868
78
2
− (1.58 ) = 3.25 − 2.496 = 0.753
24
10
Descargar