Tema 1: La Estadística

Anuncio
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
Tema 1: La Estadística
¿Ha comprado por Internet?
Creative Commons
Es dificil establecer cuando se empezaron a usar las estadísticas, pero de todos es conocido, que en el inperio romano ya se hacían censos de
sus habitantes.
Posiblemente no exista ninguna otra rama de las matemáticas, que tenga hoy en día, una influencia tan grande sobre la sociedad como la
estadística.
En la actualidad se usa la estadística como un método para la toma de decisiones por parte de los gobiernos y las empresas. Así por ejemplo:
- ¿Cómo decidir si un nuevo producto que vamos a lanzar al mercado va a tener éxito?
- Las encuestas preelectorales y su influencia sobre la toma de decisiones de los gobiernos.
- Estudiar las encuestas de crecimiento de población para determinar las necesidades y prioridades de los servicios en un nuevo barrio.
Matemáticas I
Página 1 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
1. Conceptos básicos
Los datos que estudia la estadística hacen referencia a un conjunto de personas, cosas o eventos. Este conjunto de personas, cosas o eventos
reciben el nombre de población.
Como, en la mayoría de los casos no es posible estudiar a todos los elementos de la población para realizar un estudio estadístico, no es
necesario una parte representativa de la población que llamaremos muestra. El número de personas que forman la muestra recibe el nombre de
tamaño de la misma.
Los elementos o individuos de la población poseen ciertas propiedades, rasgos o cualidades que llamamos CARACTERES O ESTADÍSTICOS
Estas características se dividen en dos tipos:
Cuantitativas, las que podemos medir de forma numérica (edad, peso, etc ...)
Cualitativas, las que no podemos medir de forma numérica (profesión).
A las cualitativas le podemos asignar una variable estadística que a su vez puede ser de dos tipos:
Variable discreta, cuando la variable toma unos valores aislados: edad.
Variable continua, cuando la variable puede tomar cualquier valor de un determinado intervalo: peso.
En la siguiente animación puedes repasar estos conceptos. Pulsa sucesivamente, con el ratón, sobre la imagen
FRECUENCIAS
Lo primero que hacemos al realizar un estudio estadístico es la tabulación de resultados, es decir, recoger la información resumiéndola en una
tabla, en la que a cada valor de la variable se le asocia el número de veces que ha aparecido y su proporción con respecto a otros valores de la
variable. Estos números se denominan frecuencia y tenemos varios tipos de frecuencias.
Frecuencia absoluta: es el número de veces que aparece un determinado valor en el estudio estadístico.
Frecuencia relativa: es el cociente entre la frecuencia absoluta de un determinado valor y el número total de datos.
Frecuencia acumulada: es la suma de las frecuencias absolutas de todos los valores inferiores o iguales al valor considerado.
Frecuencia relativa acumulada: es el cociente entre la frecuencia acumulada de un determinado valor y el número total de datos.
En la siguiente animación vemos el proceso de recuento y tabulación
Matemáticas I
Página 2 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
Indica qué variables son cualitaƟvas
Postre favorito.
Libro preferido.
Número de amigos.
Número de libros que has leído este mes.
Color de los ojos.
Indica cuáles de estas variables son discretas
Número de semáforos de una calle.
Tiempo de duración de una pelicula.
Temperaturas registradas cada hora en un observatorio.
Número de hijos de varias familias.
Distancia entre ciudades.
Matemáticas I
Página 3 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
2. Gráficos estadísticos
Una vez recogidos los datos y recontados, el primer paso es representar toda esta información mediante un diagrama. Nosotros vamos a ver,
ahora, los diagramas de barras y los histogramas.
DIAGRAMA DE BARRAS
En una clase con 30 alumnos se observa el número de suspensos que ha habido en la primera evlaución y se obtiene los datos de la siguiente
tabla.
Nº suspensos 0 1 2 3 4 5
Nº alumnnos 2 4 6 10 5 3
Vamos a representar estos datos en un diagrama de barras. En la tabla de la derecha puedes ir cambiando los valores que hay, entre 0 y 6, y ver
como se modifica el diagrama.
¿Para que tipo de variable estadística es conveniente el uso de diagrama de barras?
HISTOGRAMA
Los histogramas se usan generalmente cuando la variable estadística es continua. Las barras del histograma tienen un área proporcional al
número de datos que representan. Si el tamaño de los intervalos es igual en todos ellos, entonces el histograma coincide con un diagrama de
barras.
Se ha tomado una muestra de 100 bombillas y se ha medido las horas que han funcionado hasta averiarse y se ha obtenido la siguiente tabla de
datos.
Duración (horas) 100-150 150-200 200-250 250-300 300-350 350-400
Nº de bombillas
3
14
23
35
20
5
La variable "duración" es una variable continua, por ello hemos agrupado los datos en intervalos. Los intervalos se han tomado de una amplitud de
50 horas para todos.
En el applet siguiente puedes ver el histograma correspondiente a la tabla anterior. En él puedes modificar los valores del nº de bombillas, y
también puedes cambiar la amplitud de los intervalos. Prueba y observa.
Matemáticas I
Página 4 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
¿Para qué tipo de variables está indicado el uso de los histogramas?
GRÁFICO DE SECTORES
El gráfico de tarta o de sectores es un gráfico que se basa en la
proporcionalidad entre la frecuencia de cada variable y el ángulo
central de una circunferencia, de tal manera que a la frecuencia
total le corresponde el ángulo central de 360°.
Para construir se aplica luna simple regla de tres.
Se usa cuando la serie estadística tiene frecuencias grandes, y los
valores de la variable son pocos.
La ventaja de este diagrama es que es fácil de hacer y que se
entiende fácilmente. Si los valores de la variable son muchos
resulta laborioso de construir y dificil de entender, por lo que es
poco útil.
Haz los calculos para obtener los ángulos centrales de cada sector del cuadro anterior.
¿Para qué tipo de variables está indicado el uso de los diagramas de
sector?
Gráfico de sectores Ite Banco de imagenes y datos
Matemáticas I
Página 5 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
3. Parámetros estadísticos
Una vez que se tienen tabulados y recontados todos los valores de la variable que estamos estudiando necesitamos calcular una serie de
parámetros estadísticos que nos permitan ver de una forma rápida el comportamiento de la variable.
Estos parámetros estadísticos son:
Parámetros estadísticos de centralización: Son parámeros que miden el valor más característico de la variable.
Parámetros estadísticos de posición: Miden la posición de los valores de la variable dentro del conjunto.
Parámetros estadísticos de dispersión: Miden la dispersión de los valores de la variable estadística respecto de los parámetros de centralización y
son.
Parametro de comparación: Posibilita la comparación entre distintas series.
Matemáticas I
Página 6 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
3.1. Parámetros estadísticos de centralización.
LA MEDIA
Cuando trabajamos con una serie, grande, de valores numéricos y queremos
hacer un resumen de ellos, la media tiene gran importancia porque sirve como
una buena representación del conjunto de valores.
Luego veremos algunas propiedades que apoyan esta afirmación.
Media
Se representa por
observaciones.
y es el valor que se obtiene de sumar todos los valores de la variable estadística y dividisrlo entre el número total de
La fórmula que nos permite su cáculo es:
Si los datos están agrupados, cada uno de ellos con una frecuencia fi la fórmula sería:
Las calificaciones obtenidas por un grupo de 200 alumnos en la asignatura de Matemáticas se recogen en la siguiente tabla
Calificación
1 2 3 4 5 6 7 8 9
Nº de Alumnos 10 10 20 25 40 45 15 20 15
La Medía es:
La Mediana
Una vez ordenados los valores de la variable estadística de menor a mayor, el valor central es la mediana.
Si el número de valores de la variable es par (y por lo tanto no existe un valor que esté en el medio) la mediana es el promedio de los dos valores
centrales.
Matemáticas I
Página 7 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
Mediana
Es el valor de la variable que deja, tanto por debajo como por encima, a la mitad de los valores.
Las calificaciones obtenidas por un grupo de 200 alumnos en la asignatura de Matemáticas se recogen en la siguiente tabla:
Calificación
1 2 3 4 5 6 7 8 9
Nº de Alumnos 10 10 20 25 40 45 15 20 15
Para calcular la mediana, ordenamos los datos construyendo la tabla de frecuancias acumuladas
Calificación
1 2 3
4
5
6
7
8
9
Nº de Alumnos 10 20 40 105 40 150 165 185 200
Como la variable tiene tiene 200 valores, la mediana es el promedio de los valoires que ocupan los lugares 100 y 101, es decir 5 (ambos
son 5)
Cuando la variable estadística es continua y los datos los hemos agrupados en intervalos de clase es facil determinar la clase donde se encuentra
la mediana, una vez hecho esto la fórmula que nos permite calcular su valor es:
donde:
Li es el extremo inferior de la clase donde se encuentra la mediana.
a es la amplitud del intervalo donde se encuentra la mediana.
n es el número total de datos.
Fi-1 es la frecuencia absoluta acumulada de la clase anterior a la clase de la mediana.
fi es la frecuencia absoluta de la clase mediana.
Se ha tomado una muestra de 75 bombillas y se ha medido las horas que han funcionado hasta averiarse y se ha obtenido la siguiente tabla
de datos:
Duración (horas) 250-300 300-350 350-400 400-450 450-500 500-550
Nº de bombillas
3
6
21
28
11
6
La variable "duración" es una variable continua, por ello hemos agrupado los datos en intervalos. Los intervalos se han tomado de una
amplitud de 50 horas para todos.
Moda: la Moda de la variable duración es 425 horas que es la marca de la clase (400,450)
Media:
Mediana: Construimos la tabla de las frecuencias acumuladas
Duración
Nº de bombillas
250-300 300-350 350-400 400-450 450-500 500-550
3
9
30
58
69
75
La clase que contiene a la mediana es 400-450, aplicando la fómula que vimos anteriormente, obtenemos
Matemáticas I
Página 8 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
La Moda
Es el valor de la variable que más se repite.
La Moda
Es el valor de la variable estadística que tiene mayor frecuencia.
Una variable estadística puede tener más de una moda, si tiene dos modas diremos que la distribución es bimodal, trimodal si tiene tres y
así sucesivamente.
Las calificaciones obtenidas por un grupo de 200 alumnos en la asignatura de Matemáticas se recogen en la siguiente tabla
Calificación
1 2 3 4 5 6 7 8 9
Nº de Alumnos 10 10 20 25 40 45 15 20 15
La Moda es 6, ques la nota que han obtenido mas alumnos (45)
En el siguiente applet te presentamos las notas de 30 alumnos de una clase, en ella hemos hecho una representación de estos datos mediante
barras y hemos calculado la Medía, Mediana y Moda de la clase.
Varia los valores de la tabla y verás como cambian los valores calculados.
Matemáticas I
Página 9 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
En una clase de 30 alumnos se observa el número de suspensos que ha habido en la primera evaluación y se obtiene los fatos de la
siguiente tabla:
Nº Suspensos 0 1 2 3 4 5
Nº alumnos
2 4 6 10 5 3
Calcula la Media, Mediana y Moda
Matemáticas I
Página 10 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
3.2. Parámetros estadísticos de posición
Los cuartiles y percentiles
Los cuartiles son los tres valores de la variable que dividen a un conjunto de
datos ordenados en cuatro partes iguales. En la animación puedes ver como
se construyen los cuartiles.
Los percentiles son los 99 valores que dividen la serie de datos en 100
partes iguales.
Mediana y cuartiles Ite Banco de imagenes y datos
Cuartiles
Primer cuartil Q1 : Es el valor de la variable que deja por debajo de si al 25% de la población.
Segundo cuartil Q2: Es el valor de la variable que deja por debajo de si al 50% de la población. Es la Mediana
Tercer cuartil Q3: Es el valor de la variable que deja por debajo de sí al 75% de la población.
Percentil k: Es el valor de la variable que deja por debajo de si al k% de la población.
La fórmula para calcular estos valores es la misma que la de la mediana sólo que en lugar de dividir la n entre 2 (mediana) habrá que dividirla entre
4 para el primer cuartil y multiplicar por 3/4 para el tercero
El calculo de los percentiles es análogo al de los cuartiles.
Las temperaturas medias durante una semana de Agosto, han sido:
L M X J V S D
Calcula su mediana y los cuartiles primero y tercero
26 17 18 20 23 24 23
Como son 7 datos, la mediana estará en la posición cuatro una vez que los hayamos ordenado. 17; 18; 20; 23; 23; 24 y 26.
El primer cuartil en la posición dos y el tercero en la posición 6
Es decir: Mediana= 23; Q1=18 y Q3=24
Si nos atenemos el estudio de todo el mes de Agosto con las temperaturas agrupadas en intervalos
resultan:
[17-20) [20-23) [23-26) [26-29)
2
9
7
13
Vuelve a calcular su mediana, los cuartiles primero y tercero y el percentil 90
Md=24,9
Matemáticas I
Página 11 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
Q1=22,4
Q3=27,2
P90=28,3
Diagramas de caja
Otra forma de representación gráfica de los datos de una serie son los diagramas de caja:
Vamos a verla respresentacion de una serie compuesta por doce notas de un grupo de alumnos en una evaluación. 1, 2, 3, 3, 4, 4, 5, 5, 5, 6, 7 y
10. La Mediana es 4,5; Q1 es 3 y Q3 es 5,25.
Para construir la caja seguimos los siguientes pasos:
1. Centrado en un eje horizontal construimos un rectángulo, caja, cuyo vértice superior izquierdo está en la posicion del primer cuartil Q1 y cuyo
vértice superior derecho está en la posicion del tercer cuartil Q3.
2. Dibujamos un segmento vertical dentro de la caja en la posición de la mediana.
3. La caja se completa con un segmento que tiene como extremos los valores mínimo y máximo de la variable. Las lineas que sobresalen de la
caja se llaman bigotes. Estos bigotes tienen tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre
dentro de este rango es marcado e identificado individualmente.
Para construir los bigotes se toman los siguientes limites:
Límite
Límite
Límite
Límite
interior inferior = Límite del bigote inferior = Q1 - 1,5(Q3-Q1)
interior superior = Límite del bigote superior = Q3 + 1,5(Q 3-Q1)
exterior inferior = Q1 - 3(Q3-Q1)
exterior superior = Q3 + 3(Q3-Q1)
Los limites interiores marcan hasta donde se "permiten" datos de la muestra,
por estar muy cerca del resto. Estos límites definen los extremos de los
bigotes. De sobrepasar esta barrera se le considera valor atípico.
Los límites exteriores indican cuándo un dato se aleja en exceso del resto.
Mediana y cuartiles Ite Banco de imagenes y dato
En una excursión a la montaña, las edades de los 20 excursionistas son:15, 15, 15, 16, 16, 18, 20, 21, 21, 21, 21, 22, 22, 22, 23, 23, 23,
25, 25, 25.
Vamos a construir y estudiar un diagrama de caja y bigotes con
estos datos.
El bigote de la izquierda representa al colectivo de edades ( mínimo,
Q1)
La primera parte de la caja a (Q1, Md),
La segunda parte de la caja a (Md, Q3)
El bigote de la derecha viene dado por (Q3, máximo)
Si miramos la información que obtenemos a partir de estas representación podemos ver que:
La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades comprendidas entre el 25% y el 50% de los
excursionistas está más dispersa que entre el 50% y el 75%.
El bigote de la izquierda (mínimo, Q1) es igual que el de la derecha; por ello el 25% de los más jóvenes están igual de concentrados que el
25% de los mayores.
El rango intercuartílico = Q3 - Q1 = 6; es decir, el 50% de la población está comprendido en esos 6 años, 17 a 23.
Matemáticas I
Página 12 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
Se han medido las alturas de los 40 alumnos de una clase y se han obtenido los siguientes datos:
Intervalos Frecuencias
148,5-153,5
2
153,5-158,5
4
158,5-163,5
11
163,5-168,5
14
168,5-173,5
5
173,5-178,5
4
Calcula el primer y tercer cuartil, la mediana y el percentil 80
Matemáticas I
Página 13 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
3.3. Parámetros estadísticos de dispersión
Como podemos observar en la figura de la
izquierda las dos series, con 24 notas
cada una, tienen la misma media. Sin
embargo corresponden a valores que son
muy diferentes.
La media puede no darnos suficiente
información sobre la distibución de la serie
original.
Para completar la información
necesitamos añadir a la media otros
parámetros estadísticos: los de dispersión
El rango
Es la diferencia entre el máximo y mínimo valor que toma
la variable estadística. También se le nombra como
amplitud o recorrido
En la imagen de la derecha aparece un diagrama de
barras con la velocidad del viento en Zaragoza en el mes
de Enero de 2008. Los datos aparecen a la izquierda
Varianza
Para tener una visión mas completa sobre la serie de datos, vamos a
medir el grado de dispersión de estos datos.
Medimos lo que se desvia cada dato con respecto a la media y hallamos
la media de los cuadrados, (así conseguimos que todos los valores sean
positivos), de estas distancias
Aquí vemos un cuadro, con las estaturas de 40 alumnos agrupadas en
intervalos, y el proceso para calcular la Varianza
Matemáticas I
Página 14 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
2
Se define la varianza, y la representaremos por σ , a la media aritmética de las diferencias al cuadrado de cada dato respecto de la media
de todos ellos, es decir:
Desviación Típica
Para medir con mayor precisión el grado de
agrupamiento de los datos de una variable
estadística utilizaremos la desviación típica σ que
es la raíz cuadrada de la varianza.
La desviación típica es siempre positiva y se mide
en las mismas unidades que los datos.
Desviación Típica
Es la raiz cuadrada de la varianza y se representa por σ
Matemáticas I
Página 15 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
Cuando la distribución depende de variables asociadas a fenómenos naturales que siguen el modelo de la normal
Entre la Media y la desviación típica se cumplen algunas relaciónes:
El intervalo
contiene aproximadamente al 68% de los datos.
El intervalo
contiene aproximadamente al 95% de los datos.
El intervalo
contiene a casi todos los datos .
Coeficiente de variación
Para poder comparar las dispersiones de varias variables estadísticas utilizamos el coeficiente de variación
Coeficiente de variación
Se expresa como CV, y se calcula dividiendo la desviación típica entre la media, es decir:
El resultado se expresa generalmente en porcentaje.
Dos gimnastas obtienen en la olimpiada las puntuaciones de la siguiente tabla.
Gimnasta 1 9,4 9,4 9,3 10 9,5 9,2 8,5 9,4 9,3 9,4
Gimnasta 2 9,3 9,5 9,6 9,2 9,0 9,4 9,4 9,2 9,2 9,6
¿Cúal de las dos gimnastas se ha comportado de una forma más regular?
Vamos a calcular los parámetros estadísticos de ambas distribuciones:
Distribución 1 Media = 9,34
Matemáticas I
Página 16 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
Distribución 1: Varianza =
Distribución 1: Desviación Típica =
Distribución 1. Coeficiente de variación
expresado en tanto por ciento sería, 3,9%
Repitiendo los cálculos para la segunda gimnasta obtenemos:
Media 9,34 Varianza = 0,038 Desvición Típica = 0,19 Coeficiente de variación: 2,09%
A la vista de los resultados se puede afirmar que la segunda gimnasta ha tenido una actuación más regular ya que sus puntuaciones tienen
una menor dispersión
A un grupo de 30 personas se les ha tomado el número de pulsaciones por minuto (ritmo cardíaco) obteniéndose los siguientes resultados:
87 85 61 51 64 75 80 70 69 82
80 79 82 74 90 76 72 73 63 65
67 71 88 76 68 73 70 76 71 86
a.- Calcula la media y la desviación típica de estos datos.
b.- ¿Qué porcentaje de datos se encuentra en el intervalo
Solución
a.-
b.-
=(65,4;82,8) contamos el número de personas cuyas pulsaciones están comprendidas entre esos valores y obtenemos 20,
que representa el 66,6%
Tenemos los siguientes tres conjuntos de datos:
Serie 1 8 8 9 9 9 9 9 10 10
Serie 2 1 3 6 9 9 11 13 14 15
Serie 3 1 8 8 9 9 9 11 11 15
Las tres tiene 9 como media, moda y mediana ¿Cúal tiene los datos más agrupados?¿Cúal más dispersos?
Una empresa ganadera tiene tres tipos de vacas lecheras. se tomaron tres muestras de las distintas razas con 10 vacas por grupo. Cada
vaca produjo los siguientes litros de leche en un día
Matemáticas I
Página 17 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
Raza A 13,5 13,8 13,9 23,2 16,8 18,3 20,2 20,5 22,3 18,9
Raza B 15 22,2 26,8 25 13,2 10,9 12,5 18,9 23,8 25,6
Raza C 25,1 28,2 23,8 27,6 21,7 10,8 25 24,2 21,7 18,2
Los gastos mensuales de una empresa A tienen una media de 100.000 euros y una desviación típica de 12500 euros. En otra empresa B la
media es de 15000 euros y la desviación típica de de 2500 euros. calcula el coeficiente de variación y di cuál de las dos tiene mayor
variación relativa.
Matemáticas I
Página 18 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
5. Ejercicios para saber más
07
La tabla de la izquierda son el número de dias al año que ha
1 11 nevado en Zaragoza entre 1973 y 2009
25
3 5 Introduce estos valores en la animación de la derecha y observa
como calcula el rango, la varianza y la desviación típica.
42
5 1 Cambia los datos de la frecuencia, conservando el total de 37
6 3 años, y estudia como se consigue aumentar o disminuir la
desviación.
73
Dispersión Ite Banco de imagenes y datos
Utiliza la animación anterior para calcular el rango, la varianza y la desviación típica de los siguientes datos:
4 4
6 7
8 9
10 12
12 10
14 8
16 6
18 5
74-81
5
81-88
3
88-95
7
95-102
5
La tabla de la izquierda son el número de dias al año que ha llovido en Zaragoza entre 1973 y 2009
Introduce estos valores en la animación de la derecha y observa como calcula el rango, la varianza y la desviación típica.
102-109 8 Cambia los datos de la frecuencia, conservando el total de 37 años, y estudia como se consigue aumentar o disminuir la
desviación.
109-116 6
116-123 3
Matemáticas I
Página 19 de 20
Unidad 6: Estadística y Probabilidad
Tema 1: La Estadística
Dispersión continua Ite Banco de imagenes y datos
El número de minutos que un determinado médico dedica a cada paciente, en una determinada consulta, viene dado en esta lista: 2, 3, 4, 5,
5, 6, 6, 7, 7, 8, 8, 8, 9
Dibuja una representación en diagrama de caja, despues de hallar la Mediana y los cuartiles 1 y 3.
Para finalizar, te proporcionamos una colección de ejercicios que debes hacer para consolidar lo que has aprendido a lo largo de este tema.
* Ejercicios de consolidación
* Soluciones
Matemáticas I
Página 20 de 20
Descargar