1. ( responda las preguntas Las notas de un alumno en la asignatura de estadística se registran en la siguiente tabla: 4,5 3,2 6,4 5,7 3,5 4,5 5,8 3,6 La media aritmética de las notas de este alumno es: a) 2.- La media armónica de las notas del aluno es: 3.- La moda en las notas del alumno es: 4.- La mediana de las notas del alumno es: 5.- La media geométrica de las notas del alumno es: 6.- las medidas de desviación de los datos. 7.- El rango intercuartílico de los datos. Muestras representativas El cálculo anterior no es más que una estimación de la cantidad de población, ya que dependerá de lo representativa que sea la muestra escogida. La estimación en la práctica es muy difícil, por esta razón se toman varias muestras para mejorarla. Para que la muestra sea representativa se deben considerar varios aspectos; uno de ellos es el tamaño de la muestra, mientras mayor sea su tamaño mayor será su confiabilidad, pero a su vez más costoso será el estudio. Otro aspecto se relaciona con que todos los integrantes de la población tengan la misma probabilidad de ser seleccionados en la muestra, por este motivo la selección debe ser al azar, es decir una muestra aleatoria. Las muestras, al igual que las poblaciones, nos permiten calcular parámetros estadísticos como la media, la desviación estándar, etc.; para diferenciarlos usaremos 𝒙 y s, respectivamente, en el caso de la muestra, µ y 𝜎 en el caso de la población. Nivel de confianza Si se desea conocer la media aritmética de una población, se puede obtener un intervalo, que con cierto nivel de confianza, pueda asegurar que esta se encuentra dentro de un intervalo. Margen de error El margen de error depende del nivel de confianza y del tamaño de la muestra. Ejemplo Un grupo de médicos de distintos hospitales desea saber cuánto tiempo permanecen hospitalizados los pacientes con problemas cardiacos. Extraen una muestra de 80 pacientes obteniendo una media muestral de 2,5 días; ellos sabían que la desviación típica era de 4 días. Si el nivel de confianza es de un 95%, ¡cual es el intervalo? 2,5 ± 1,96 ∙ 4 √80 → [1,62; 3,38] Con un 95% de confianza. Por lo tanto, la cantidad de días que permanecerán los pacientes, será aproximadamente entre los valores dados en el intervalo. Tamaño de la muestra El tamaño de la muestra está dado por el número de sujetos que componen la muestra extraída de una población. Ejemplo En un colegio de 1.600 alumnos se está estudiando la relación entre la estatura de los niños al nacer y otras variables. Se sabe que la desviación típica poblacional es de 1,5 cm y se desea estimar la media con un 99% de confianza y con un error máximo de 0,5 cm. 𝐸=𝐾 ∙ √𝑛 = 𝜎 √𝑛 → 0,5 = 2,58 ∙ 1,5 √𝑛 𝑘 ∙ 𝜎 2,58 ∙ 1,5 → √𝑛 = = 7,74 𝐸 0,5 𝑛=( 𝑘 ∙ 𝜎 2 ) → 𝑛 = 59,9076 ≈ 60 𝐸 Se debe tomar al menos una muestra de 60 alumnos. Distribución normal La distribución normal, una de las más importantes, recibe su nombre debido a que en cierto momento se pensó que la mayoría de los fenómenos estaban distribuidos de dicha manera. Esta distribución nos permite representar fenómenos estadísticos de manera probabilística. Cuando una variable continua tiene distribución normal, su grafico es similar al indicado. Como se observa, tiene forma de campana (conocida como campana de Gauss) y es simétrico con respecto a la media, además presenta pocos valores extremos Además se sabe que si una población tiene media μ y desviación típica σ, se cumple lo siguiente: Ejercicios 1. Determina en cuales de los siguientes casos se trata de una población con distribución normal: a. Sueldos que se pagan en una empresa. b. Edad a la que una persona muere. 2. De un colegio mixto egresaron 210 varones y 225 damas. Las edades de los varones se distribuyen N(18,8;0,4) y la de las damas, N(18,2;0,6). a. ¿Cuántos varones tienen más de 18 años? b. ¿Cuántas damas tenían más de 17 años? c. Si se selecciona un alumno al azar, ¿Cuál es la probabilidad de que tenga a lo menos 1,8 años? Ejemplo El resultado de una prueba de cuarto medio, tiene una distribución N(5,3; 0,6). El total de estudiantes que estudio la prueba es de 150 ¿Cuál es la probabilidad de que al escoger un estudiante al azar este haya obtenido al menos un 6,0? Calcularemos la probabilidad de que un alumno tenga menos de un 6,0; para facilitar el uso de la tabla, el complemento será lo buscado. 𝑧= 6,0−5,6 0,6 = 0,7 0,6 = 1,16 ≈ 1,2 En la tabla 1,2 corresponde a 0,884; por lo tanto 1 – 0,8849 = 0,1151 (probabilidad de obtener un alumno con nota igual o superior a 6,0 o bien el 11,51% de los alumnos obtuvo una nota perteneciente a este intervalo. Ejercicio Jorge obtuvo un 5,4 en biología y 5,7 en física. Si los promedios en ambas asignaturas fueron 4,8 y 5,0 y las desviaciones estándar 0,6 y 0,8, respectivamente, ¿en qué asignatura obtuvo un lugar relativo mejor? Solución Los datos entregados, por cada asignatura son: Nota cualquiera: 5,4 y 5,7 Media aritmética: 4,8 y 5,0 Desviación estándar: 0,6 y 0,8 Como se requiere conocer en cuál de las siguientes asignaturas Jorge tuvo un rendimiento relativamente mejor, obtendremos los puntajes tipificados de cada asignatura ( o puntajes z). En relación a la media, Jorge obtuvo un mejor rendimiento en biología que en física, ya que, su puntaje z, está por encima de media. Datos intervalares. Agruparemos los siguientes datos, expresados en metros, correspondientes a la estatura de 80 estudiantes de cuarto año de educación media 1,68 1,72 1,81 1,93 1,70 1,83 1,80 1,88 1,68 1,75 1,80 1,86 1,70 1,84 1,82 1,83 1,81 1,77 1,73 1,75 1,73 1,77 1,67 1,83 1,80 1,72 1,71 1,85 1,80 1,69 1,82 1,69 1,90 1,81 1,74 1,76 1,70 1,80 1,75 1,84 1,81 1,80 1,72 1,80 1,72 1,88 1,75 1,91 1,82 1,79 1,72 1,67 1,70 1,75 1,72 1,77 1,72 1,73 1,83 1,76 1,83 1,77 1,72 1,77 1,75 1,84 1,93 1,79 1,82 1,76 1,71 1,76 1,74 1,88 1,66 1,80 1,72 1,75 1,79 1,77 Rango: Dato mayor-dato menor= 1,93 – 1,66= 0.27 Numero de intervalos I= 1+3.3logN = 1+3,3log80 = 7 intervalos Unidad de medida 2 (dos decimales) Amplitud de clase: 0.27 7 = 0,04 Límite inferior del primer intervalo: Li= menor valor observado- 0,01=1,66-0,02= 1.64 intervalo [1.64 − 1.68 ] [1.69 − 1.73 ] [1.74 − 1.78 ] [1.79 − 1.83] [1.84 − 1.88 ] [1.89 − 1.93 ] total Xi 1.66 1.71 1.76 1.81 1.86 1.91 fa 5 20 19 24 8 4 80 Media para datos agrupados: 𝑋̅ = Xi.fa 8.3 34.2 33.44 43.44 14.88 7.64 141.86 (Xi-𝑋̅ )fa -0.55 -1.2 -0.19 0.96 0.72 0.56 0 ∑ 𝑋𝑖𝑓𝑖 𝑁 𝑋̅ = 141,86 = 1.77 80 Mediana para datos agrupados: Método 1 : se obtiene haciendo un gráfico histograma: |(Xi − 𝑋̅ )fa| 0.55 1.2 0.19 0.96 0.72 0.56 4.18 Se calcula el área total del histograma, considerando como altura las frecuencias absolutas y como base la amplitud de clase. A=0,04 (5+20+19+24+8+4)=3,2 Se calcula el 50% de esta, que corresponde a 1,6. Se establece por defecto el 50% del área total según el grafico: 0,2 + 0,8 = 1 Para completar el 50% faltan entonces: 1,6-1,0= 0,6 que deben tomarse del siguiente rectángulo, es decir: (0.04-x).19=0,6 De donde x=0.071 , que corresponde a la abscisa que deja la mitad del área a cada lado . En consecuencia: La mediana corresponde al valor: 1,71+0.071= 1.78 cm. Modelo tabular o intervalar: intervalo [1.64 − 1.68 ] [1.69 − 1.73 ] [1.74 − 1.78 ] [1.79 − 1.83] [1.84 − 1.88 ] [1.89 − 1.93 ] total Xi 1.66 1.71 1.76 1.81 1.86 1.91 fa 5 20 19 24 8 4 80 (Xi-𝑋̅ ) -0.11 -0.06 -0.01 0.04 0.09 0.14 (Xi − 𝑋̅ )2 0.0121 0.0036 0.0001 0.0016 0.0081 0.0196 (Xi − 𝑋̅ )2 𝑓𝑎 0.0605 0.072 0.0019 0.0384 0.0648 0.0784 0.5271 𝑀𝑑 = 𝐿𝑖 + 𝑁 ( 2 − ∑ 𝑓𝑖𝑛𝑓 ) 𝑥𝐶 𝑓𝑐𝑙𝑎𝑠𝑒 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 Primero se calcula el 50% de los datos: , en este caso 40 datos: Entonces: La suma de las frecuencias anteriores a 40 datos será: 5+20=25 ( siempre ppor defecto) Entonces la clase mediana es el tercer intervalo: El límite inferior de la clase mediana será Li= 𝑀𝑑 = 1.735 + 1,73+1,74 2 = 1.735 (40 − 25)𝑥0.04 19 Md= 1.735+0.0316=1.7666= 1.77 La moda: Modelo intervalar: 𝑀𝑜 = 𝐿𝑟𝑖 + Para el ejemplo: intervalo [1.64 − 1.68 ] [1.69 − 1.73 ] [1.74 − 1.78 ] [1.79 − 1.83] [1.84 − 1.88 ] [1.89 − 1.93 ] total Xi 1.66 1.71 1.76 1.81 1.86 1.91 fa 5 20 19 24 8 4 80 (Xi-𝑋̅ ) -0.11 -0.06 -0.01 0.04 0.09 0.14 Clase modal: cuarta clase ( ,mayor frecuencia) Frecuencia de la clase modal = 24 Exceso sobre la clase superior: 24-8= 16 Exceso sobre la clase inferior= 24-19= 5 Limite real de la clase modal: 1,78+1.79 𝐿𝑟𝑒𝑎𝑙 𝑖𝑛𝑓 = = 1.785 2 16 𝑀𝑜 = 1.785 + 16+5 ∗ 0.04 ∆𝑠 ∗𝐶 ∆𝑖 + ∆𝑠 (Xi − 𝑋̅ )2 0.0121 0.0036 0.0001 0.0016 0.0081 0.0196 (Xi − 𝑋̅ )2 𝑓𝑎 0.0605 0.072 0.0019 0.0384 0.0648 0.0784 0.5271 Mo= 1.81 Medidas de dispersión para datos agrupados: Calculo de la desviación media: ∑|(Xi − 𝑋̅ )fa| 𝑁 4.18 𝐷𝑚 = = 0.05 80 𝐷𝑚 = (Xi−𝑋̅ )2 𝑓𝑎 Calculo de la desviación estándar: 𝜎 = √ intervalo [1.64 − 1.68 ] [1.69 − 1.73 ] [1.74 − 1.78 ] [1.79 − 1.83] [1.84 − 1.88 ] [1.89 − 1.93 ] total Xi 1.66 1.71 1.76 1.81 1.86 1.91 fa 5 20 19 24 8 4 80 𝑁 (Xi-𝑋̅ ) -0.11 -0.06 -0.01 0.04 0.09 0.14 𝜎=√ (Xi − 𝑋̅ )2 0.0121 0.0036 0.0001 0.0016 0.0081 0.0196 (Xi − 𝑋̅ )2 𝑓𝑎 0.0605 0.072 0.0019 0.0384 0.0648 0.0784 0.5271 0.5271 = 0.08 80 Desviación estándar de la población desviación típica) 0.5271 :𝑆 =√ 79 = 0.08 Rango intercuartílico: Se calcula el 25% de los datos: en este caso 25% de 80 = 20 datos: Corresponde a 5 datos de la primera clase más 15 de la segunda clase: Por tanto 15 (0.04) = 1.72 22 15 𝑄1 = 1.685 + (0.04) = 1.72 22 𝑄1 = 𝐿𝑟𝑒𝑎𝑙 𝑠𝑢𝑝 + El 25% de los encuestados está por debajo de 1.72m de estatura. Para el 75%: que equivale a 30 alumnos: Corresponde a datos de la primera , segunda clase más 5 datos de la tercera clase: : 5 𝑄1 = 1.785 + (0.04) = 1.80 19 El 25% superior de los encuestados está por sobre el 1.80 metros de estatura. En el rango intercuartílico se ubican los alumnos cuyas estaturas fluctúan entre los 1.72 y 1.80 metros de alto. Niveles de confianza en el estudio de datos estadísticos. Considerando que la estatura de los alumnos en estudio es una variable aleatoria que sigue una distribución normal. Construya un intervalo de un 95% de confianza para la media de la población del Liceo. En este caso: N= 80 𝑋̅ = 1.77 , 𝑆 = 0.08 1 − 𝛼 = 0.95 Z= 1.96 [𝑋̅ ± 𝑍 ∗ 𝑆2 √𝑁 [1.77 ± 1.96 ∗ [ 1.76 ; 1.77] ] 0.082 √40 ] Existe un 95% de probabilidades de que al escoger un alumno al azar de la población este se encuentre en este rango de edad. Problema de aplicación: Considere que los datos a granel corresponden a las notas de un alumno en la asignatura de estadística inferencial I. Considere además que la población corresponde a un curso de 40 alumnos cuya media corresponde a 5.4. 1.- Construya una distribución intervalar 2.- Prueba que los datos se distribuyen normalmente desde el punto de vista estadístico. 3.- Determine las medidas de desviación de la muestra y del grupo curso. 2.- determine la probabilidad estadística de que al escoger un alumno del total del curso este tenga un promedio 5,3 Notas de un alumno 4.8 3.6 5.3 5.5 5.8 5.4 6.5 6.3 6.2 5.2 5.3 5.5 5.4 5.5 5.1 6.9 6.8 6.7 5.0 5.5 5.6 5.4 5.6 5.4 4.5 4.9 6.4 5.1 5.0 5.5 4.8 5.5 6.2 6.1 6.5 5.0 7.0 4.1 3.2 5.2 5.7 5.6 6.3 4.9 7.0 4.5 3.5 4.7 Unidad de medida: 0.1 Determinación de intervalos I = 1+ + 3.3log48= 7 intervalos. Determinación del rango de medida o de datos observados o registrados: Mayor dato registrado=7.0 Menor dato registrado: 3,2 Rango de medida= 7.0-3.2= 3.8 𝑅𝑎𝑛𝑔𝑜 𝑑𝑒 𝑚𝑒𝑑𝑖𝑑𝑎 Determinación de amplitud de clase: 𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 = Determinación del límite inferior de la primera clase: 3.8 7 = 0.5 1 Lim= menor dato medido -2 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒. Lim= 3.2-0.25= 2.9 Determinación de la primera clase: [𝐿𝑖𝑚 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑝𝑟𝑖𝑚𝑒𝑟𝑎 𝑐𝑙𝑎𝑠𝑒 − 𝐿𝑖𝑚𝑖 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑝𝑟𝑖𝑚𝑒𝑟𝑎 𝑐𝑙𝑎𝑠𝑒 + 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑] [2.9 − 2.9 + 0.5] [2.9 − 3.4] Determinación de la segunda clase: [𝐿𝑖𝑚 sup 𝑝𝑟𝑖𝑚𝑒𝑟𝑎 𝑐𝑙𝑎𝑠𝑒 + 𝑢𝑛𝑖𝑑𝑎𝑑 𝑑𝑒 𝑚𝑒𝑑𝑖𝑑𝑎 − 𝐿𝑖𝑚 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑠𝑒𝑔𝑢𝑛𝑑𝑎 𝑐𝑙𝑎𝑠𝑒 + 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑] [3.4 + 0.1 − 3.5 + 0.5] [3.5 − 4.0] Y así etc. Conteo de datos y determinación de las frecuencias. Intervalos o clases [2.9 − 3.4] [3.5 − 4.0] [4.1 − 4.6] [4.7 − 5.2] [5.3 − 5.8] [5.9 − 6.4] [6.5 − 7.0] Marca de clase Xi 3.2 3.8 4.4 5.0 5.6 6.2 6.8 fa fac Xi*fa Desviaciones Xi-𝑋̅ 1 2 3 12 17 6 7 48 1 3 6 18 35 41 48 3.2 7.6 13.2 60.0 95.2 37.2 47.6 264.0 -2.3 -1.7 -1.1 -0.5 0.1 0.7 1.3 Determinación de la edia de la muestra: ∑ 𝑋𝑖𝑓𝑖 Media para datos agrupados: 𝑋̅ = 𝑁 = 264 48 = 5.5 Determinación de la mediana: 𝑁 ( 2 − ∑ 𝑓𝑖𝑛𝑓 ) 𝑥𝐶 (24 − 18)0.5 𝑀𝑑 = 𝐿𝑖 + = 5.25 + = 5.5 𝑓𝑐𝑙𝑎𝑠𝑒 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 12 Determinación de la moda: 𝑀𝑜 = 𝐿𝑟𝑖 + ∆𝑠 11 ∗ 𝐶 = 5.25 + ∗ 0.5 = 5.6 ∆𝑖 + ∆𝑠 11 + 5 Desviación media de la muestra: 𝐷𝑚 = ∑|(Xi − 𝑋̅ )fa| 30 = = 0.63 𝑁 48 Desviación media de grupo curso: 𝐷𝑚 = ∑|(Xi − 𝑋̅ )fa| 30 = = 0.64 𝑁−1 47 Desviación estándar de la muestra: (Xi−𝑋̅ )2 𝑓𝑎 𝜎=√ 𝑁 22.64 = √ 48 =0.67 Desviación estándar del curso: (Xi − 𝑋̅ )2 𝑓𝑎 22.64 𝜎=√ = √ = 0.69 𝑁−1 47 Marca de clase Xi 3.2 3.8 4.4 5.0 5.6 6.2 6.8 Total de Valor desviaciones absoluto de las (Xi-𝑋̅)fa desviaciones medias |(Xi − 𝑋̅)fa| -2.3 2.3 -3.4 3.4 -3.3 3.3 -6.0 6.0 1.7 1.7 4.2 4.2 9.1 9.1 0 30 (Xi − 𝑋̅)2 5.29 2.89 1.21 0.25 0.01 0.49 1.69 (Xi − 𝑋̅)2 𝑓𝑎 5.29 5.78 3.63 3.00 0.17 2.94 1.83 22.64 Tipificación de datos: 𝐷𝑎𝑡𝑜 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛 − 𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛 𝑍= 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛 𝑍= 𝑋𝑖 − 𝜇 𝜎 Para este caso: 5.3−5.4 𝑍 = 0.69 = −0.15= 0.2 que corresponde según la tabla al valor 0.0793. Por lo tanto la probabilidad corresponde a (1-2(0.2))= 0.6*100= 60%