Guía de Materia Matemáticas Estadística Estadística: Tiene como fin recopilar datos, clasificarlos, tabularlos y graficarlos, para su posterior estudio. Muestra: Es un subconjunto representativo del universo. Amplitud de la muestra: Número de elementos de la muestra - Cualitativa Variable: - Cuantitativa I) - Discreta - Continua Distribución de frecuencia. Cuando se tiene una gran cantidad de datos, es conveniente agruparlos en una tabla, para visualizarlos mejor y sacar una mejor información de ellos. Por ejemplo: Las siguientes son las edades de un grupo de niños de un jardín infantil, 4-4-1-1-2-3-1-5-4-4-4-5-1-1-2-4-3-3-2-2-3-4-4-5-1-2-3-5-5-1-1-3-4-5-1-3-2-2-3-2-3-5-2-4-5-2-2-2-3-3. Estos datos los ordenaremos en una tabla de distribución de frecuencia Edades 1 2 3 4 5 Frecuencia (f) 9 12 11 10 8 Frecuencia o frecuencia absoluta es el número de veces que aparece dicho valor en el conjunto. Ordenando los datos en esta tabla, es fácil responder preguntas como: ¿Cuántos niños hay de 4 años? ¿Cuál es la edad que más hay? (R: 10) (R: 2) Estos datos también los podemos calcularle la frecuencia acumulada y la porcentual. Edades Frecuencia 1 2 3 4 5 9 12 11 10 8 Frecuencia acumulada(fac) 9 21 32 42 50 Frecuencia porcentual (f %) 18 % 24 % 22 % 20 % 16 % Frecuencia acumulada hasta un valor, es el número de observaciones cuyo valor es menor o igual al valor considerado. Frecuencia porcentual es el porcentaje de observaciones que toma dicho valor. Con esta información responde: ¿Cuántos niños hay menores que 4 años? ¿Cuántos niños hay en total? ¿Qué porcentaje de niños tienen 5 años? (R: 32) (R: 50) (R: 16%) 2 Cuando las observaciones son una gran cantidad de valores, conviene agruparlos en intervalos. Ejemplo: La siguiente tabla muestra los puntajes en intervalos obtenidos en un ensayo de P.S.U. de matemáticas en un curso de 30 alumnos. Puntaje [500 – 550[ [550 – 600[ Marca de clase 525 575 f 3 4 fac 3 7 [600 – 650[ [650 – 700[ 625 675 6 5 13 18 [700 – 750[ [750 – 800] 725 755 9 3 27 30 II) f% 10 % 13, 3 % 20 % Marca de clase es el representante del intervalo, corresponde al punto medio del intervalo. 13, 6 % 30 % 10 % Representación gráfica de la información a) Histograma o gráfico de barras En este tipo de gráfico la variable va en el eje x, y la frecuencia en el eje y. Las alturas de las barras indican la frecuencia de la variable en estudio. Ejemplos: Los siguientes gráficos representan las dos situaciones anteriores. frecuencia 12 frecuencia 10 10 8 8 6 6 4 4 2 2 1 2 3 4 5 Edades de niños de un jardín infantil edad 500 550 600 650 700 750 800 puntaje Puntajes obtenidos por un grupo de alumnos en la PSU 3 b) Polígono de frecuencia Es un gráfico de línea que se obtiene al unir los puntos de los datos versus su frecuencia. Si los datos son agrupados se toma su marca de clase, como en el segundo ejemplo. frecuencia frecuencia 12 10 10 8 8 6 6 4 4 2 2 500 1 2 3 4 5 550 600 650 700 750 800 puntaje edad Edades de niños de un jardín infantil Puntajes obtenidos por un grupo de alumnos en la PSU c) Gráfico circular En este gráfico se reparte los 360° del circulo en forma proporcional a la frecuencia. Ejemplo: Una nueva pasta de dientes fue probada por 300 personas, las que opinaron que la encontraron muy buena, buena, regular o mala los resultados están expresados en el siguiente gráfico. ¿Cuántas personas la encontraron regular? (R: 60) Mala Buena 36° ¿Cuántas personas la encontraron buena o muy buena? (R: 210) 72° 180° 72° Regular Muy buena d) Pictograma Estos gráficos están formados por figuras, donde cada figura representa una frecuencia dada en cada caso. Ejemplo: El gráfico muestra la cantidad de mediaguas construidas por “Un techo para Chile” el invierno pasado en las regiones VI, VII , VIII y IX = 25 mediaguas VI VII VIII IX regiones ¿Cuántas mediaguas se construyeron en la VII región? (R: 75) 4 III) Medidas de tendencia central (Media , mediana y moda) Los siguientes datos corresponden al número de helados que se tomaron un grupo de 30 alumnos en un paseo. 3-1-0-3-2-2-0-4-1-4-2-2-1-3-4 3-4-2-3-3-0-1-4-1-2-2-3-3-4-4 - N° helados 0 1 2 3 4 Frecuencia 3 5 7 8 7 F acumulada 3 8 15 23 30 Media (o promedio aritmético): Se calcula sumando todos los valores de la muestra y dividiendo por el número total de observaciones. Sin tabla: 3 1 0 3 2 ...... 3 4 4 71 2,36 30 30 Con tabla: 0 3 1 5 2 7 3 8 4 7 71 2,36 30 30 - Mediana Es el término que equidista de los extremos en una distribución ordenada. Sin tabla: Se ordenan los datos y el que queda al medio es la mediana, si son dos es el promedio aritmético entre esos dos. 0-0-0-1-1-1-1-1-2-2-2-2-2-22-3 -3-3-3-3-3-3-3-4-4-4-4-4-4-4 mediana = 2,5 Con tabla: En la frecuencia acumulada se ve que datos corresponden a la ubicación 15 y 16, en este caso son el 2 y el 3, luego la mediana será el promedio entre ellos = 2,5 - Moda Es el valor que más se repite, no es necesariamente un valor, si tiene 2 es bimodal, 3 es trimodal, etc. Si todos los datos tienen la misma frecuencia, entonces no tiene moda. Sin tabla: es el que más se repite, en este caso la moda es 3. Con tabla: es el valor que tiene mayor frecuencia absoluta. Moda = 3 5 IV) Estadígrafos de dispersión Miden que tanto se dispersan los datos alrededor de su media, estos son rango, varianza, desviación estándar. Si tomamos por ejemplo 3 pequeños conjuntos de datos Grupo 1 0 ; 5 ; 10 En los tres grupos su media es 5, pero los datos de los diferentes grupos tienen una dispersión diferente. Grupo 2 4;5;6 Grupo 3 5;5;5 A) Rango Es la diferencia entre la observación más alta y la más baja. En el ejemplo: Rango grupo 1 = (10 – 0) = 10 Rango grupo 2 = (6 – 4) = 2 Rango grupo 3 = (5 – 5) = 0 B) Varianza Es el promedio de las diferencias de cada dato con respecto a la media elevadas al cuadrado. En el ejemplo: 0 52 5 52 10 52 50 16, 6 3 3 2 2 2 5 4 5 5 6 5 2 Grupo 2 = 0, 6 3 3 2 2 2 5 5 5 5 5 5 0 0 Grupo 3 = 3 3 Grupo 1 = = C) Desviación estándar Es la raiz cuadrada de la varianza Grupo 1 = 16, 6 4,08 Grupo 2 = 0, 6 0,82 Grupo 3 = 0 0 VI) Estadígrafos de posición - CUANTILES Los cuantiles dividen los datos ya ordenados en grupos iguales, estos pueden ser : cuartiles, quintiles, deciles y percentiles. - CUARTILES Son medidas de localización que dividen la distribución en 4 partes. El primer cuartil es el valor de la variable que deja bajo él al 25% de los datos, el segundo cuartil deja bajo él al 50% de los datos y el tercer cuartil deja bajo él al 75% de los datos. 1 25% 50% 75% 2 1° 3 2° 4 3° 6 - DECILES Son medidas de localización que dividen la distribución en 10 partes iguales. 1 20% 2 3 2° 4 5 6 5° 7 8 9 10 9° 50% 90% - PERCENTILES Son medidas de localización que dividen la distribución en 100 partes iguales. Por ejemplo si una variable se encuentra en el percentil 86, significa que supera al 86% de los datos, ó el 86% está bajo el. 7