APUNTES Y TAREAS 1° PARCIAL 1.1 CONCEPTOS BÁSICOS ¿Qué es Estadística? Teoría y aplicación de métodos para coleccionar datos, organizarlos, analizarlos y hacer deducciones, teniendo en mente siempre el error asociado a estas deducciones. Subdivisiones: Descriptiva: Describe el comportamiento.(Recolecta, organiza y analiza) Estadística Inferencial: Estima conclusiones basadas en generalizaciones (hace deducciones y estima el error asociado) ¿Para qué sirve? Realidad Tomar decisiones Obtener datos Hacer deducciones Ver características Mayor comprensión Conceptos: Dato: Observación de interés Discretos (Ej. 8 cajas) Cuantitativos (se pueden medir) Continuos (Ej. 1.345 kg) Tipos de datos Cualitativoss (características) (Ej. colores,marcas) Población: Agrupación de todos los elementos que se están estudiando Muestra: Parte representativa de la población o sea que contiene las características relevantes de la población EN LA MISMA PROPORCIÓN. Población Muestra TAREA 1 Explica para cada enunciado si la afirmación trata sobre la muestra o la población, que tipo de dato es y para que serviría tener la información. a) El gerente de ventas de una empresa de refrescos informa al gerente general que 4 de 7 consumidores prefieren refrescos sabor Cola b) El contador de una empresa de ropa calculó que el salario promedio de las 120 obreras es de $4750.8 al mes más prestaciones. c) En una empresa de renta de autos se sabe que las flotillas de sus competidores están entre 25 y 40 camionetas. d) Los diseñadores de autos decidieron los colores de la línea para el siguiente año en base a las preferencias de los clientes y las tendencias de la moda. Informaron a los directivos que el 25% de la producción debe ser en color rojo. 1.2 ORGANIZACIÓN DE DATOS ¿Para qué? Valores extremos Grupos similares valores que repiten proporciones gráficas ¿Cómo? a) Ordenar de menor a mayor o viceversa y así conocemos los valores extremos. b) Formando grupos denominados CLASES los cuales describen una característica de los datos y hacer así grupos similares c) Elaborando tablas de frecuencia con los valores que se repiten de acuerdo a las clases establecidas. d) Elaborando tablas de frecuencia relativa calculando la proporción de cada clase respecto a la muestra. e) Elaborando representaciones gráficas para comprensión visual. a) VALORES EXTREMOS Es el método más sencillo de organización y puede ser desde manual o bien mediante computadora. Ejemplo: Ordena los siguientes datos de menor a mayor 2 5 3 7 4 2 5 6 7 2 En Excel® * Captura los datos en una columna, selecciónalos, en la pestaña de inicio busca el ícono de ordenar y filtrar y la opción de menor a mayor. Ahora puedes conocer los valores extremos aunque se trate de muchos datos. A la diferencia del valor mayor menos el menor se le conoce como RANGO, en este caso es 5 (restando 7-2) Observa que en este ícono puedes elegir otro orden o filtrar valores, por ejemplo si quieres filtrar solo los números iguales o mayores a 4 entonces primero deja una celda en blanco arriba de los números para dejar espacio al filtro, luego selecciona filtrar, mayor o igual 4 También puedes conocer los valores extremos insertando función Estadística MAX ( para máximo ) y MIN (para mínimo) y señalar los datos. b) FORMANDO CLASES Ya se mencionó que una CLASE es un grupo de valores que describen una característica de los datos; los tipos de clase y algunos ejemplos son: Cuantitativos Discretos Cuantitativos Continuos Cualitativos MODELO DEL AUTO 1991-1995 1996-2000 2001-2005 RENDIMIENTO MÁXIMO (Km/l) 8.1-10.0 10.1-12.0 12.1-14.0 COLOR EXTERIOR AZUL BLANCO NEGRO ¿Cuántas clases usar? Se recomienda usar entre 3 y 20 clases y cuando se trata de datos cuantitativos se puede tener un número de clases aproximado usando la siguiente fórmula: # clases n donde n es el tamaño de la muestra o sea el número de datos y el # de clases se redondea de ser necesario. Tarea 2 En los siguientes casos analiza si se trata de una muestra o población, decide cuantas clases usar y cuales serían: a) El gerente de recursos humanos desea clasificar a su personal de acuerdo a su grado máximo de estudios. b) El encargado de nuevos productos del área de Mercadotecnia desea detectar las fragancias más vendidas en detergentes lava trastes. c) El dueño de una microempresa desea clasificar la edad de sus 30 trabajadores ¿Cómo construir las clases para datos cuantitativos? Se debe primero seleccionar el número de clases, después determinar el rango, a ese rango aumentar un poco más (para que los datos no queden “apretados”) y a esto se le conoce como rango holgado. Luego aplicar la siguiente fórmula para calcular la amplitud o ancho de clase. La amplitud de clase representa el tamaño de la clase y observa que el valor es “aproximadamente igual a” esto significa que frecuentemente se tendrá que redondear este valor a conveniencia para que las clases queden presentables. Ejemplo El contador de una empresa desea presentar a su jefe la información del importe de facturas por cobrar del mes. De sus registros tiene los siguientes datos. 125 380 265 129 176 208 350 410 480 168 380 259 170 270 180 Se selecciona el # de clases 15 3.87 se puede redondear a 4 Después hay que acomodar los datos, para encontrar los extremos 125 129 168 170 176 180 208 259 265 270 350 380 380 410 480 Luego calculamos el rango Rango = 480-125=355 El Rango holgado se puede dejar en 400 Calculando la amplitud de clase = 400/4 =100 en este caso el valor es adecuado y ya no se necesita redondear. Se conoce como límites de la clase a los valores extremos de cada clase y existe límite superior y límite inferior. En este ejemplo las clases quedarían: CLASES Importe $ 101 -200 Límite inferior Límite superior 201-300 301-400 401-500 Hay que notar que se utilizaron clases solo en pesos sin centavos debido a que los datos no tienen decimales, de lo contrario la manera correcta para presentarlos sería Importe $ 100.01 -200.00 200.01-300.00 300.01-400.00 400.01-500.00 Observa que el límite inferior de una clase debe continuar con el siguiente valor del límite superior de la clase precedente para que no queden “huecos”. Por ejemplo una manera incorrecta de hacerlo sería Importe $ 101.00 -200.00 201.00-300.00 301.00-400.00 401.00-500.00 Considera que si existiera una factura cuyo importe fuera $300.50 ó $400.85 NO HABRÍA DONDE CLASIFICARLAS porque existen “huecos” PRECAUCIONES AL HACER LAS CLASES Existen varias consideraciones a tomar en cuenta al hacer las clases cuantitativas. a) La amplitud de clase debe ser igual para todas las CLASES CERRADAS (o sea con límites), esto se verifica restando dos límites de clases contiguas, por ejemplo 201-101=100 ó bien 401-301 =100 , etc. b) Existen problemas para los cuales conviene usar CLASES ABIERTAS (donde la primera y/o la última clase no tiene 1 límite) por ejemplo: Importe $ menor a 200 201-300 301-400 401 y mayor Importe $ 101- 200 201-300 301-400 401 y mayor c) No debe haber “huecos” entre clases. d) Respetar el número de decimales de los datos originales, si los datos no tienen decimales NO hay que usarlos, pero si los tienen entonces deben aparecer en los límites. e) Todos los datos deben tener un lugar en alguna clase. Importe $ 151 - 250 251 -350 351 - 450 451 -550 Hay dos datos que no tienen lugar el 125 y 129 f) Dejar límites adecuados a cada problema, o sea que sean lógicos y justificables dependiendo del contexto y del tipo de problema, para el ejemplo de las facturas serían ilógico usar los siguientes límites aunque matemáticamente fuera correcto ya que no habría argumento válido para tal división. Importe $ 113.76 - 213.75 213.76 - 313.75 313.76 - 413.75 413.76 - 513.75 c) ELABORANDO TABLAS DE FRECUENCIA Una tabla de frecuencia es el conteo de forma tabular del número de datos que se encuentran en cada clase. Para el ejemplo anterior tenemos. Importe $ Frecuencia 101 -200 6 201-300 4 301-400 3 401-500 2 Conviene sumar el total de frecuencias y comprobar que coincide con el total de datos. Para realizar esto en EXCEL® * se debe primero poner los límites superiores por separado, luego señalar las celdas donde se desean las frecuencias e insertar función estadística FRECUENCIA Luego capturar los datos y en grupos el límite superior y simultáneamente presionar las teclas Ctrl Shift Enter d) ELABORANDO TABLAS DE FRECUENCIA RELATIVA Una tabla de frecuencia relativa se elabora a partir de una de frecuencia y solo hay que dividir la frecuencia de cada clase entre el total de datos o sea 6/15=0.40 Se puede expresar en decimales o en porcentaje. Importe $ Frecuencia Frecuencia relativa 101- 200 201-300 301-400 401 - 500 6 4 3 2 0.4000 0.2667 0.2000 0.1333 O bien Importe $ 101- 200 201-300 301-400 401 - 500 Frecuencia 6 4 3 2 Frecuencia relativa 40.00% 26.67% 20.00% 13.33% Tarea 3 El empleado de una embajada debe entregar un reporte sobre el número de visas otorgadas a estudiantes en los últimos 2 años, tiene los siguientes datos. 155 161 203 240 179 159 180 300 388 239 390 181 158 210 279 307 375 347 160 188 274 390 322 256 Calcula el número de clases, elabora la tabla de frecuencia y de frecuencia relativa e) HACIENDO GRÁFICAS Existen muchos tipos de gráficas que suelen utilizarse en Estadística, las más comunes son: De barra o más conocido cono histograma De línea Circular Para realizarlas fácilmente en EXCEL® *, se seleccionan los datos se va a la pestaña Insertar, se selecciona el tipo de gráfico deseado y posteriormente se editan ejes, título, etc. Del ejemplo anterior quedarían Clic derecho y Seleccionar datos para editar ejes, señala las clases en letrero Clic derecho , Formato a serie de datos par cambiar colores, etc. y finalmente la gráfica de barras quedaría número de facturas Importe de facturas 10 5 0 101- 200 201-300 301-400 401 - 500 $ O bien como histograma en Formato a serie de datos disminuyendo el ancho del intervalo número de facturas Importe de facturas 8 6 4 2 0 101- 200 201-300 301-400 $ De manera similar los otros gráficos quedarían 401 - 500 Importe de facturas número de facturas 7 6 5 4 3 2 1 0 149.5 249.5 349.5 449.5 $ Observa que en un gráfico de líneas, el eje horizontal debe llevar lo que se conoce como marca de clase o centro de clase que resulta de sumar los límites de una clase y dividirlos entre 2 Distribución del Importe de facturas ($) 13% 40% 20% 101- 200 201-300 301-400 401 - 500 27% Aquí se deben señalar las clases y su unidad ya que no hay ejes, así podemos analizar que el 40% de las facturas tienen un importe entre $101 a $200, etc. Tarea 4 Con los datos de la tarea 3 construye el histograma, elabora una gráfica de pastel con la frecuencia relativa, calcula las marcas de clase y construye una gráfica de líneas de la frecuencia. Excel® * tiene paquetería especializada llamada Análisis de datos, para instalarla se debe abrir el botón Office, ir a Opciones de Excel® *, Complementos, Herramientas para Análisis, Ir activar Estará en la pestaña de Datos Se capturan los datos y el límite superior de las clases, activar Análisis de datos, ir a Histograma. El resultado quedaría Ejercicio Una empresa exportadora de artesanías tiene un producto cuyos pesos varían de acuerdo a la siguiente información en kg. 19.5 22.4 19.2 21.6 24.6 24 24.5 20.9 22.1 23.7 23.6 19.9 20.6 21.3 22.5 22.7 23.5 21.4 20.5 19.8 23.8 24.2 22.4 23.7 23.4 24.7 23.6 20.1 19.5 24.6 a) Decide el número de clases a usar b) Construye una tabla de frecuencias y frecuencias relativas c) Construye el histograma Solución a) Ya que se tratan de 30 datos se utilizaran 30 5.4 6 clases b) Considerando la amplitud de clases, con rango holgado de 6 (ya que el rango es 5.5) amplitud = 6/6=1 (con decimales ya que los datos los tienen) lim inf 19.1 20.1 21.1 22.1 23.1 24.1 lim sup 20.0 21.0 22.0 23.0 24.0 25.0 Entonces la tabla de frecuencias y frecuencias Relativas quedaría Clase Frecuencia 20.0 5 21.0 4 22.0 3 23.0 5 24.0 8 25.0 5 y mayor... 0 % acumulado 16.67% 30.00% 40.00% 56.67% 83.33% 100.00% 100.00% c)El histograma quedaría # cajas Variaciones de peso 10 8 6 4 2 0 120.00% 100.00% 80.00% 60.00% 40.00% 20.00% 0.00% Frecuencia % acumulado Kg Tarea 5 El encargado de Recursos Humanos de una empresa está analizando la antigüedad de su personal de confianza, tiene los siguientes datos en años 3.4 2.0 3.8 4.0 4.1 4.2 4.7 4.8 5.5 5.5 3.4 3.8 4.9 4.1 4.7 4.3 4.9 5.5 5.5 4.1 a) Decide el número de clases a usar b) Construye una tabla de frecuencias y frecuencias relativas c) Construye el histograma 1.3 MEDIDAS DE TENDENCIA CENTRAL ¿Qué son? Son valores que se encuentran cercanos al centro del conjunto de datos ordenados, sirven para representar al conjunto mediante un solo valor. Medidas de Tendencia Central Media Aritmética (Promedio) Media Ponderada Mediana Moda MEDIA ARITMÉTICA Más conocida como Promedio es la suma de los valores dividida entre el número de datos, la simbología que usaremos es: in x x i 1 i Donde i es un contador desde el primer hasta el dato n y Σ significa n sumatoria. Por ejemplo si se tienen las siguientes calificaciones para un estudiante en las distintas materias que cursa: 7, 5, 7, 8, 8, 7 la calificación promedio o media aritmética será: i 6 x x i 1 6 i 757889 7.33 6 Existen algunas ventajas y desventajas para esta medida: Ventajas Desventajas Es un concepto familiar para mucha gente y relativamente claro El cálculo puede afectarse con valores extremos que no son representativos del resto de los datos Cada conjunto de datos tiene solo una media En datos agrupados no se puede calcular la media para un conjunto de datos que tienen clases abiertas en los extremos Cada dato es tomado en cuenta cuando se calcula la media Se pueden comparar media de varios conjuntos de datos En EXCEL® * Insertar función Estadística, seleccionar PROMEDIO (AVERAGE) y seleccionar las celdas que contienen los datos MEDIA PONDERADA Es el resultado de multiplicar cada uno de los datos (x) por un valor particular (p), posteriormente sumar los productos y dividirlos entre el total de la ponderación. La simbología sería i n xp (x p ) i 1 i n i i p i 1 i Para el mismo ejemplo de las calificaciones del alumno si se desea dar importancia a cada materia de acuerdo al número de créditos se tendría por ejemplo. Calificación 7 5 7 8 8 9 # de Créditos 10 5 10 15 5 10 Ventajas Desventajas Permite calcular un promedio que toma en cuenta la importancia de cada valor sobre todo el total No es muy conocida para la mayoría de la gente in xp (x p ) i 1 in i i p i 1 (7 *10) (5 * 5) (7 *10) (8 *15) (8 * 5) (9 *10) 415 7.54 10 5 10 15 5 10 55 i MEDIANA Es el centro de los datos ordenados, cuando se trata de número de datos impar solo se ordena y se ubica el valor central, pero si se trata de número de datos par entonces se saca el promedio de los dos datos centrales. Para el ejemplo anterior primero se deben acomodar los datos de menor a mayor y luego ver que dato está al centro. 5 7 7 8 8 9 Como se trata de un número de datos par (n=6) existen dos números que están al centro el 7 y 8 de estos se debe sacar un promedio (7+8)/2=7.5 y este es valor de la mediana Si solo se tuvieran 5 calificaciones sería impar y entonces la mediana es 7 5 7 7 8 8 A continuación se muestran sus principales ventaja y desventajas: Ventajas Desventajas Los valores extremos no afectan tan Se deben organizar los datos antes de fuertemente la mediana como lo hacen calcularla con la media Es fácil de entender y puede calcularse a No es familiar para la mayoría de la gente partir de cualquier grupo de datos, aún para datos con clases abiertas Se puede encontrar una mediana aún cuando los datos sean descripciones no números. En EXCEL® * Insertar función Estadística MEDIANA (MEDIAN) y se seleccionan los datos, observa el resultado MODA Se define como el número que más se repite dentro de un conjunto de datos, aunque en caso de empate puede haber 2 modas (bimodal) ó más (multimodal) Para el ejemplo de las calificaciones existe un empate entre el 7 y 8 ya que ambos se repiten dos veces, entonces hay dos modas, sin embargo EXCEL® * tiene la desventaja de solo mostrar la primera que encuentra Ventajas Desventajas Se puede usar tanto para datos cualitativos A menudo no existe la moda en un como para cuantitativos conjunto de datos. No la afectan valores extremos Cuando existen dos o tres modas en el mismo grupo de datos no es fácil hacer interpretaciones Se puede usar con clases abiertas Tarea 6 Con los datos de la tarea 5 calcula la media, moda y mediana 1.4 MEDIDAS DE DISPERSIÓN ¿Qué son? Las medidas de dispersión nos muestran como su nombre lo indica el grado en que los datos numéricos tienden a esparcirse alrededor de un valor promedio. ¿Para que sirven? Dan una idea de la confiabilidad de los datos Se pueden representar de la siguiente forma Los más importantes son: Medidas de dispersión Rango Varianza Desviación estándar RANGO Como ya se mencionó es la diferencia entre el número mayor y el número menor en un conjunto de datos En el ejemplo de las calificaciones el rango se puede calcular restando la calificación mayor menos la menor o sea 9-5=4 DESVIACIÓN ESTÁNDAR DE LA MUESTRA Es la raíz cuadrada de las desviaciones de cada dato respecto a la media divididas entre n-1 in s ( x x) i 1 2 i n 1 Para calcular esto en el ejemplo de las calificaciones hay que recordar que la media fue 7.33 entonces restamos cada dato y lo elevamos al cuadrado, luego se suma, se divide y finalmente se saca raíz cuadrada (5 7.33) 2 (7 7.33) 2 (7 7.33) 2 (8 7.33) 2 (8 7.33)2 (9 7.33) 2 s 6 1 s 9.333 1.366 5 En EXCEL® *, Insertar función, Estadística DESVEST y se seleccionan los datos VARIANZA DE LA MUESTRA Es el cuadrado de la desviación estándar de la muestra in s2 s2 ( x x) i 1 2 i n 1 9.333 1.866 6 1 seleccionan los datos en EXCEL® *, Insertar función, Estadística VAR y se Ejercicio (continuación) Una empresa exportadora de artesanías tiene un producto cuyos pesos varían de acuerdo a la siguiente información en kg. 19.5 22.4 19.2 21.6 24.6 24 24.5 20.9 22.1 23.7 23.6 19.9 20.6 21.3 22.5 22.7 23.5 21.4 20.5 19.8 23.8 24.2 22.4 23.7 23.4 Calcula las medidas e tendencia central y de dispersión Columna1 Media Error típico Mediana Moda Desviación estándar Varianza de la muestra Curtosis Coeficiente de asimetría Rango 22.2766667 0.32634103 22.45 19.5 1.78744343 3.19495402 -1.31381695 -0.2969928 5.5 24.7 23.6 20.1 19.5 24.6 Mínimo Máximo Suma Cuenta 19.2 24.7 668.3 30 Ejercicio El encargado de Recursos Humanos de una empresa está analizando la antigüedad de su personal de confianza, tiene los siguientes datos en años 3.4 2.0 3.8 4.0 4.1 4.2 4.7 4.8 5.5 5.5 3.4 3.8 4.9 4.1 4.7 4.3 4.9 5.5 5.5 4.1 Calcula las medidas de tendencia central y de dispersión. Media Error típico Mediana Moda Desviación estándar Varianza de la muestra Curtosis Coeficiente de asimetría Rango Mínimo Máximo Suma Cuenta 4.36 0.19606658 4.25 5.5 0.87683642 0.76884211 1.34142216 0.77756798 3.5 2 5.5 87.2 20 Tarea 7 Con los datos de la tarea 5 calcula las medidas de dispersión: rango, desviación estándar y varianza.