Estadística y Probabilidad Enrique Sandoval CONCEPTOS INICIALES Definición de Estadística • Recolectar • Organizar • Analizar • Presentar • Interpretar Decisión Población Es la totalidad de elementos a los cuales está destinado un estudio o investigación. Es el conjunto completo de individuos, objetos o datos que el investigador está interesado en estudiar. Muestra Subconjunto de una población, es la porción representativa de la población que se seleccionará para su análisis. Variable Es una característica de interés que varía de individuo en individuo en una población. Puede tener valores o categorías. Datos Son las realizaciones de las variables. Medidas u observaciones que se realizan sobre los sujetos. Parámetro Número calculado sobre los datos de la población, que cuantifica una característica de ella. Estadístico Número calculado a partir de los datos de la muestra, que cuantifica una característica de ella. Parámetro (q) Estadístico Unidad experimental o unidad de observación CUALITATIVAS O CATEGÓRICAS VARIABLES CUANTITATIVAS O NUMÉRICAS DISCRETAS CONTINUAS ESCALAS DE MEDICIÓN • • • • Nominal Ordinal Intervalar Razón ORGANIZACIÓN DE DATOS Los siguientes datos corresponden a los casos notificados de enfermedades vinculadas a adicciones en distintos centros de salud de la ciudad 5 9 9 10 6 5 7 10 7 7 7 9 5 5 6 8 6 12 6 6 7 8 7 7 11 8 5 7 ¿Cuál es la población? ¿Cuál es la muestra? ¿Cuál es la unidad de observación? ¿Cuál es la variable de estudio? ¿Cómo es esa variable? Ordenamos estos datos en una tabla de distribución de frecuencias simple Valores de la variable Xi 5 6 7 8 9 10 11 12 fi fa fr fra Frecuencia relativa acumulada Frecuencia acumulada Frecuencia relativa Frecuencia absoluta n Xi fi fa fr fra 5 6 7 8 9 10 11 12 5 5 8 3 3 2 1 1 28 5 10 18 21 24 26 27 28 0,18 0,18 0,29 0,11 0,11 0,07 0,04 0,04 1 0,18 0,36 0,64 0,75 0,86 0,93 0,96 1 • Frecuencia acumulada: fa = fi + fa – 1 • Frecuencia relativa: fr = fi/n • Frecuencia relativa acumulada: fra = fr + fra-1 Tablas de distribución de frecuencias Def: Una tabla de distribución de frecuencias es aquella en la cual a cada valor de la variable se le asigna el número de veces en que se presenta en la distribución (FRECUENCIA). Tabla de distribución de frecuencias con intervalos de clase Clases (años) fi 5 - 10 2 10 - 15 1 15 - 20 5 20 - 25 9 25 - 30 14 30 - 35 18 35 - 40 21 70 fa 2 3 8 17 31 49 70 fr 0,03 0,01 0,07 0,13 0,20 0,26 0,30 1 fra 0,03 0,04 0,11 0,24 0,44 0,70 1,00 Cómo construir una tabla con intervalos 1. Decidir la cantidad de intervalos a construir (k) 5 < k < 15 2. Calcular el rango (R) R=Xmax – Xmin 3. Calcular la amplitud de cada intervalo (h) h = R/k (redondeado al entero inmediato superior) Ejemplo: Los siguientes valores corresponden a las edades que sufrieron lesiones en accidentes de tránsito en el último año. 2 6 10 16 20 26 27 29 24 24 20 20 21 17 16 16 19 18 3 2 12 12 10 10 10 14 14 13 12 5 9 5 14 10 14 13 11 10 9 8 5 6 7 29 28 31 30 5 Construcción Resumen Tablas de distribución de frecuencias Simple Variable discreta Variable continua Con intervalos Variable discreta de gran recorrido Gráficos Histograma de frecuencias absolutas 13 frecuencia absoluta 9 6 3 0 -3 2 7 12 17 Columna1 21 22 26 27 31 32 36 37 Histograma de frecuencias acumuladas 50 frec. abs. acumulada 38 25 13 0 -3 2 7 12 17 Columna1 21 26 31 36 Histograma y polígono de frecuencias 13 frecuencia absoluta 9 6 3 0 -3 2 7 12 17 Columna1 21 26 31 36 Histograma y ojiva 50 frec. abs. acumulada 38 25 13 0 -3 2 7 12 17 Columna1 21 26 31 36 Ejemplos de interpretación de curvas de frecuencias Calificaciones Segundo Parcial 0,46 0,48 0,34 0,36 frecuencia relativa frecuencia relativa Calificaciones Primer Parcial 0,23 0,11 0,00 -0,80 0,24 0,12 0,00 -0,80 1,00 2,80 4,60 6,40 8,20 10,00 Columna1 Calificaciones Primer Parcial 11,80 1,00 2,80 4,60 6,40 8,20 10,00 11,80 Columna1 Calificaciones Segundo Parcial Presentación de Datos ORGANIZACIÓN DE DATOS CATEGÓRICOS FACULTAD Cantidad de docentes F.A.E.N. 157 Facultad de Humanidades 314 Facultad de Recursos Naturales 186 Facultad de Ciencias de la Salud 144 Encabezado principal (Clasificación B) Rótulo de la columna (Clase B1) Rótulo de la columna (Clase B2) Rótulo de la fila (total de la Clasificación A) Celda Celda Rótulo de la fila (Clase A1) Celda Celda Rótulo de la fila (Clase A2) Celda Celda Rótulo de la fila (Clase A3) Celda celda Notas al pie de la tabla Notas sobre fuente u origen Cuerpo Columna matriz Encabezado del Talón (Clasificación A) Encabezados secundarios Título Docentes de la Universidad Nacional de Formosa Según Facultad y Dedicación Año 1998 Docentes Facultad Total Dedicación Dedicación Dedicación Exclusiva Semiexclusiva Simple Total 801 79 217 505 F.A.E.N. 157 27 59 71 Facultad de Humanidades 314 18 72 224 Facultad de Recursos Naturales 186 21 44 121 Facultad de Ciencias de la Salud 144 13 42 89 Confeccione un cuadro con todas sus partes teniendo en cuenta la siguiente información. La Región Litoral (Misiones, Corrientes, Entre Ríos, Santa Fe, Chaco y Formosa) cuenta con 313 establecimientos hoteleros, de los cuales 109 son de una y dos estrellas, 147 de tres estrellas y 57 de cuatro y cinco estrellas. Presentación Gráfica Gráfico de barras simples Utilidad: Para representar cantidades clasificadas en forma cronológica, geográfica o cualitativa Docentes de la U.Na.F. según Facultad y Dedicación 1998 350 300 250 200 150 100 50 0 F.A.E.N. Facultad de Humanidades Facultad de Recursos Naturales Facultad de Ciencias de la Salud Gráfico de barras agrupadas Utilidad: Para representar cantidades clasificadas en forma cronológica, geográfica o cualitativa y a su vez compararlas con otras en cada categoría o cada momento de tiempo considerado. 250 200 150 Exclusiva Semiexclusiva 100 Simple 50 0 F.A.E.N. Facultad de Humanidades Facultad de Recursos Naturales Facultad de Ciencias de la Salud Gráfico de barras apiladas Utilidad: Muestra la misma información que un gráfico de barras simples y uno de barras agrupadas, todo un solo gráfico. 350 300 250 Simple 200 Semiexclusiva 150 Exclusiva 100 50 0 F.A.E.N. HUMANIDADES RECURSOS NATURALES CIENCIAS DE LA SALUD Gráfico de barras proporcionales Utilidad: Muestra una comparación porcentual de las distintas cantidades por categoría o momento de tiempo. 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% Ec on om ía y Sa lu d Ne go ci os Na tu ra le s ec ur so s R H um an id ad es 0% Exclusiva Semiexclusiva Simple Gráfico de sectores circulares Docentes de la U.Na.F según Facultad Año 1998 Salud 18% Economía y Negocios 20% Humanidades 39% Recursos Naturales 23% Gráfico de líneas Utilidad: Muestra la variación de una cantidad a lo largo del tiempo, es decir muestra la variación cronológica de una cantidad. Gráfico de líneas simple Venta de pasajes en miles de pesos 60 50 40 30 20 10 0 100 Gráfico de líneas múltiples 90 80 70 60 50 Aéreo 40 30 20 10 0 Terrestre