Métodos Estadísticos Capítulo I Dr. Gabriel Arcos Espinosa UNIDADES I.- Introducción a la estadística. CONTENIDOS TEMATICOS 1. 2. Introducción Qué es la estadística 3. El papel de la estadística en la ingeniería y la ciencia administrativa. 4. Aplicaciones de la estadística. 5. Estadística descriptiva. 6. Organización y presentación de datos estadísticos. 7. Distribución de frecuencias. 8. Graficas. 9. Medidas descriptivas. 10. Medidas de dispersión 11. Ejercicios de fin de Capitulo. ESTRATEGIAS DEL PROCESO ENSEÑANZA APRENDIZAJE E INVESTIGACION OBJETIVOS PARTICULARES • • • • Definir las áreas de aplicación de la Estadística en el campo de las empresas. Comprenderá la metodología de la Estadística. Resumir y presentar datos desde un punto de vista estadístico. Aprenderá a discriminar, seleccionar y validar el modelo estadístico más apropiado para cada caso. • • • • • Exposición del profesor, el estudio de casos, uso de proyectos. Practica empleando la computadora. Se fomentara el uso de software. Se propiciara el trabajo en equipo. Se hará un trabajo practico por equipo, mismo que se expondrán en la última sesión del curso. ESTRATEGIAS DE EVALUACION • • • • • Actividades en equipo. Tarea. Solución de ejemplos con ayuda de la computadora. Examen escrito. Proyecto. Estadística: Es la ciencia que se ocupa de recolectar, organizar, presentar, analizar e interpretar datos para ayudar a una toma de decisiones más eficientes. Estadística descriptiva: conjunto de métodos para organizar, resumir y presentar los datos de manera informativa. Estadística inferencial: Conjunto de métodos utilizados para saber algo acerca de una población, basada en una muestra. PAPEL DE LA ESTADÍSTICA La estadística se ha convertido en herramienta vital para los Ingenieros, Administradores y Economistas, ya que les permite comprender fenómenos sujetos a variación y predecirlo o controlarlo eficazmente. Razones para estudiar estadística: •La primera razón es que en todos lados encontramos información numérica: •La empresa General Electric reportó que en 1999 sus ganancias fueron de $ 111 630 000 (dólares) mayor que los $ 100 469 000 que obtuvo en 1998. •Las egresados de Posgrado del programa de maestría en administración de empresas de la universidad de Notre Dame, contaron con un sueldo promedio inicial de $ 54 000 dólares y el 91% de ellos consiguieron trabajo en los primeros tres meses de su graduación. •En Estados Unidos hay 26.4 millones de jugadores de golf. •Estados Unidos el mayor consumidor de café en promedio 1.75 tazas diarias por persona. •La segunda razón para estudiar estadística es que las técnicas estadísticas se utilizan para tomas decisiones que afectan nuestra vida diaria. •Las compañías de seguros utilizan análisis estadístico para establecer las tarifas de los seguros de casas, automóviles, vida y salud. •México primer lugar en obesidad a nivel mundial. •Se estima que este año será la época mas seca de los últimos 12 años. •El promedio de vida de los mexicanos se duplicó entre 1930 y 2004 de 34.9 años a 73 en el caso de los hombres y de 36.9 a 77.9 años en el caso de las mujeres. Distribución porcentual de la población de 7 a 29 años que dejó de asistir a la escuela según causa de abandono escolar en el año 2010. Causa de abandono % • – Falta de dinero o necesidad de trabajar. 35.73 • – No quiso o no le gustó estudiar. 27.48 • – Porque terminó una carrera o porque dejó los estudios hasta el nivel que tenía como objetivo estudiar. 12.31 • – Por matrimonio y unión. 8.50 • – Porque su familia no lo dejó o por ayudar en las tareas del hogar. 2.38 • – Otra causa. 2.09 • – Porque la escuela estaba muy lejos o no había. 1.87 • – No especificado. 9.64 Fuente: INEGI. Censo General de Población y Vivienda, 1990; tabulados de la muestra censal del XII Censo General de Población y Vivienda, 2010. •Tercera razón que el conocimiento de los métodos estadísticos ayuda a entender por qué se toman ciertas decisiones y aporta una mejor comprensión respecto a la forma en la que nos afectan las decisiones Para tomar estas decisiones se necesitan: •Determinar si la información existente es adecuada o si se requiere información adicional. •Reunir la información adicional, si es necesaria, de tal forma que no haya resultados erróneos. •Resumir la información de modo útil e informativo. •Analizar la información disponible. •Sacar las conclusiones y realizar las inferencias necesarias, al tiempo que se evalúa el riesgo de llegar a una conclusión incorrecta Censo de la Republica Mexicana 112,337,000 habitantes Distribución de frecuencia Para que los datos sean útiles deben organizarse para distinguir patrones y tendencias y así llegar a conclusiones lógicas Una forma de organizar un conjunto de datos es clasificarlos en categorías o clases y luego contar cuántas observaciones quedan dentro de cada categoría. Distribución de frecuencia: Agrupamiento de datos en categorías mutuamente excluyentes, que indican el número de observaciones en cada categoría ¿Cómo se elabora una distribución de frecuencias? 1.-Determinar el número de clases 1 + 3.3 ∗ log(n ) 2k 〉 n k número de clases n número de observaciones 2.- Determine el intervalo o amplitud i≥ H −L k H es el valor mayor L es el valor menor k es el número de clases 3.- Establezca los limites de las clases 4.-Distribución de los datos en las distintas clases. 5.-Contar el número de elementos de cada clase. Componentes de la distribución de frecuencia Frecuencia absoluta: número de elementos u observaciones pertenecientes a una misma clase. Frecuencia relativa: Se obtiene de dividir la frecuencia absoluta entre el número de observaciones Frecuencia acumulada: el número de observaciones que son menores que el límite superior de la clase ( Se obtiene sumando en sentido descendente) Punto medio: valor central de la clase Representación gráfica La representación grafica contribuye a un mejor análisis de los datos. Facilita la comprensión de fenómenos considerados. Pierde detalle de la información pero se obtiene otro tipo de información. Gráficos utilizados: histogramas, polígonos de frecuencias y ojivas son útiles pues resaltan los patrones de los datos y atraen la atención. Histograma: Gráfico de barras verticales que no guardan separación entre sí, la altura debe ser proporcional al número de elementos de la clase Polígono de frecuencias: La altura de cada punto la determina el punto medio o marca de clase (abscisa) y la frecuencia simple (ordenada) de la clase. Ojiva: Para representar la Frecuencia Acumulada, ordenada se eleva sobre el limite superior (tiene forma de S) la Medidas de Centralización Nos dan un centro de la distribución de frecuencias, es un valor que se puede tomar como representativo de todos los datos. Hay diferentes modos para definir el "centro" de las observaciones en un conjunto de datos: Media: (Muestral y poblacional): Se calcula de la misma manera, pero la simbología utilizada es diferente. Media: (media aritmética o simplemente media). Es el promedio aritmético de las observaciones, es decir, el cociente entre la suma de todos los datos y el numero de ellos. MEDIANA (Me): es el valor que separa por la mitad las observaciones ordenadas de menor a mayor, de tal forma que el 50% de estas son menores que la mediana y el otro 50% son mayores. Si el número de datos es impar la mediana será el valor central, si es par tomaremos como mediana la media aritmética de los dos valores centrales. MODA (M0): es el valor de la variable que más veces se repite, es decir, aquella cuya frecuencia absoluta es mayor. No tiene porque ser única. MEDIA ARITMETICA DE DATOS AGRUPADOS. N x= ∑fx i i +1 i N Donde: x Es la media aritmética. xi Es el valor central o punto medio, de cada clase. fi Es la frecuencia en cada clase f i xi N ∑ fixi i +1 N Es la frecuencia en cada clase multiplicada por el punto medio de la clase . Es la suma de esos productos. Es el numero total de frecuencias MEDIANA DE DATOS AGRUPADOS: N ( ) f − 2 ∑ i ME = Li + C f mediana Donde: Li es el limite inferior de la clase que contiene la mediana. N es el numero total de frecuencias. f mediana (∑ f )i C es la frecuencia de la clase que contiene la mediana. es el numero acumulado de frecuencias en todas las clases que preceden a la clase que contiene la mediana. es la amplitud (o anchura) de la clase en que se encuentra la mediana EJEMPLO Clase F Marca de x clase fi xi 45.5-52.5 8 49 392 52.5-59.5 7 56 392 59.5-66.5 9 63 567 66.5-73.5 13 70 910 73.5-80.5 6 77 462 ∑ = 43 N ( ) − f i 2 ∑ ME = Li + C f mediana 43 15 − 2 ME = 59.5 + (66.5 − 59.5) 9 ME = 64.55 MODA. Se relaciona con la frecuencia con que se presenta el dato o los datos con mayor incidencia, con lo que se considera la posibilidad de que exista más de una moda para un conjunto de datos ∆1 Mo = Li + C ∆1 + ∆ 2 Donde: Li limite inferior o frontera inferior (N/2) ∆1 exceso de la frecuencia modal sobre la clase modal inferior inmediata ∆2 exceso de la frecuencia modal sobre la clase modal superior inmediata C intervalo de la clase modal EJEMPLO Clase F Marca de clase 45.5-52.5 8 49 392 52.5-59.5 7 56 392 59.5-66.5 9 63 567 66.5-73.5 13 70 910 73.5-80.5 6 77 462 x fi xi ∆1 C Mo = Li + ∆1 + ∆ 2 13 − 9 Mo = 66.5 + (66.5 − 59.5) (13 − 9) + (13 − 6) Mo = 69.05 Dispersión Amplitud de Variación= Valor más grande – Valor más pequeño Desviación Media: Es el promedio aritmético de los valores absolutos de las desviaciones con respecto a la media DM = ∑X −X N X el valor de cada observación. X N Es la media aritmética de todos los valores El total de números observados de la muestra Indican el valor absoluto MEDIDAS DE DISPERSIÓN VARIANZA ( S2 ) : La media aritmética de las observaciones cuadráticas con respecto a la media. S2 = 2 ( ) X − X ∑ i N S 2 Es el símbolo de la Varianza X El total de números observados X Es la media aritmética de todos los valores N Es el total de valores de la población n Es el total de valores de la muestra S2 = 2 ( ) X − X ∑ i n −1 DESVIACIÓN TÍPICA (S): La varianza viene dada por las mismas unidades que la variable pero al cuadrado, para evitar este problema podemos usar como medida de dispersión la desviación típica que se define como la raíz cuadrada positiva de la varianza. S= 2 ( ) X − X ∑ i N S= ∑ (X i −X) n −1 2 i Desviación estándar para datos agrupados (S): S= ∑ fX ( fX ) ∑ − 2 2 n −1 n S Es el símbolo de Desviación estándar X n fi El punto medio de la clase Es el total de valores de muestra Es el valor de la frecuencia EJERCICIO Cierta empresa de la zona conurbada quiere conocer la eficiencia y eficacia de sus trabajadores en las líneas de producción, para lo anterior hizo pruebas que le permitieran conocer los resultados y estos se señalan en la siguiente tabla: Clase o Intervalo f 52-61 8 62-71 19 72-81 33 82-91 14 92-101 6 Obtenga: a) Media, mediana y moda (aproximado a dos decimales) b) Desviación estándar y varianza. c) Histograma, polígono de frecuencia y ojiva. COEFICIENTE DE VARIACIÓN DE PEARSON: Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se utiliza el coeficiente de variación de Pearson que se define como el cociente entre la desviación típica y el valor absoluto de la media aritmética. S CV = *100 X CV representa el número de veces que la desviación típica contiene a la media aritmética, expresado en porcentaje y cuanto mayor es CV mayor es la dispersión y menor la representatividad de la media. EJEMPLO El analista de investigación para la empresa de corretaje de acciones Sidde Financial, desea comparar la dispersión de las razones (o cocientes) precio-rendimiento en un grupo de acciones comunes, con la dispersión de sus rendimientos sobre inversión. Para las razones precio-rendimiento la media es 10.9 y la desviación estándar 1.8. el rendimiento sobre inversión es 25% y la desviación estándar 5.2%. a) Por que debe utilizarse el coeficiente de variación para comparar la dispersión. Precio - rendimiento Rendimiento - inversión Xmedia = 10.9 Xmedia = 25% 0.25 S = 1.8 S = 5.2% 0.052 s (100) x 1.8 CV = (100) = 16.51 10.9 CV = s (100) x 0.052 CV = (100) = 20.8 0.25 CV = b) Compare la dispersión relativa de las razones precio-rendimiento, y el rendimiento sobre inversión. Existe menor dispersión en el precio-rendimiento cuyo valor es 16.51% en relación al rendimiento-inversión con su valor de 20.8% EJEMPLO Se va comparar la dispersión en los precios anuales de las acciones que se venden a menos de $10 (dólares) y la dispersión en los precios de aquellas que se venden por arriba de $60. el precio medio de las acciones que se venden a menos de $10 es 5.25 y la desviación estándar es $1.52. el precio medio de las acciones que se negocian a mas de $60 es $92.50 y su desviación estándar es $5.28. a) Por que debe utilizarse el coeficiente de variación para comparar la dispersión de los precios? b) Calcule los coeficientes de variación. Cual es su conclusión? a) Por que se puede comparar la dispersión relativa en términos de porcentajes. b) Se observa que las acciones a menos de $10 tienen una dispersión mayor relativa, en comparación con las que se venden por arriba de los $60. Acciones menores a 10 dólares s (100) x 1.52 CV = (100) = 28.95% 5.25 CV = Arriba de 60 dólares s (100) x 5.28 CV = (100) = 5.70% 92.50 CV = EJERCICIO La tabla a continuación indica los salarios básicos por hora (en unidades monetarias) en abril 2010 para ciertas categorías ocupacionales de obreros sindicalizados en cierto sector de la construcción. Determine cuál es la ocupación en la que existe la mayor variación en los salarios básicos y cuál es la que muestra la menor variación. Para hacer estas comparaciones deberá utilizar el coeficiente de variación. Salarios básicos por hora, según tipo de trabajo y lugares encuestados Ocupación A B C D Albañiles 6.290 7.375 5.750 7.500 Carpinteros 5.900 7.020 5.370 6.660 Electricistas 7.500 7.600 6.700 7.335 Pintores 7.170 6.735 4.750 6.110 Enyesadores 5.920 7.045 5.940 6.825 Plomeros 8.000 4.450 6.250 7.080 Ayudantes 4.020 4.780 3.180 4.700 Teorema de Chebyshev Teorema de Chebyshev: Para un conjunto cualquiera de observaciones (muestra o población), la proporción mínima de los valores que se encuentran dentro de k desvariaciones desde la media es por lo menos 1-1/k2 , donde k es una constante mayor que 1 Regla empírica. Regla empírica: En una distribución de frecuencias simétrica, con forma de campana, aproximadamente 68% de las observaciones estarán entre más una y menos una desviación estándar desde la media; aproximadamente 95% de las observaciones se encontaran entre más dos y menos dos desviaciones estándar desde la media; prácticamente todas las observaciones (99.7%) se hallaran entre más tres y menos tres desviaciones estándar, a partir del valor medio 70 80 90 100 68% 95% 99.7% 110 120 130 Coeficiente de asimetría De Pearson = 3(Media-Mediana) s Media Mediana Negativamente Asimétrica Frecuencia Media Frecuencia Frecuencia Mediana Positivamente Asimétrica Simétrica Medidas de Posición Los cuantiles son valores de la distribución que la dividen en partes iguales, es decir, en intervalos, que comprenden el mismo número de valores. Los más usados son los cuartiles, los deciles y los percentiles. CUARTILES: Son los tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales, son un caso particular de los percentiles: -El primer cuartil Q1 es el menor valor que es mayor que una cuarta parte de los datos. - El segundo cuartil Q2 (la mediana), es el menor valor que es mayor que la mitad de los datos. - El tercer cuartil Q3 es el menor valor que es mayor que tres cuartas partes de los datos. DECILES: son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son también un caso particular de los percentiles. PERCENTILES: son 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Ejemplo, el percentil de orden 15 deja por debajo al 15% de las observaciones, y por encima queda el 85% C Lc = (n + 1) 100 Diferencia Intercuartilica Donde: Q3= Tercer cuartil Q1= Primer cuartil I=Q3-Q1 Para datos agrupados 1 N − F1 C1 Q1 = L1 + 4 f1 L1=Limite real donde se encuentra el primer cuartil. N= Total de datos. Donde: F1=Frecuencia acumulada antes de la clase que contiene el primer cuartil. f1=Frecuencia de la clase que contiene al primer cuartil. C1=Tamaño real de la clase que contiene al primer cuartil Clase F Marca de clase 51.5-61.5 8 56.5 61.5-71.5 19 66.5 71.5-81.5 33 76.5 81.5-91.5 14 86.5 91.5-101.5 6 96.5 ∑ = 80 1 N − F1 C1 Q1 = L1 + 4 f 1 3 N − F3 C 3 Q3 = L3 + 4 f3 I Q = Q3 − Q1 1 − ( 80 ) 8 Q1 = 61.5 + 4 (10) = 67.81 19 3 ( 80 ) − 27 4 Q3 = 71.5 + (10) = 81.5 33 I Q = 81.5 − 67.81 = 13.69 Medidas descriptivas. Las medidas descriptivas son valores numéricos calculados a partir de la muestra y que nos resumen la información contenida en ella. Posición: Divide un conjunto ordenado de datos en grupos con la misma cantidad de individuos •Cuantiles , percentiles, cuartiles, deciles,… Centralización: Indica valores con respecto a los datos parecen agruparse •Media , mediana, moda Dispersión: Indica la mayor o menor concentración de datos con respecto a las medidas de centralización. •Varianza, desviación típica, coeficiente de variación, rango. Forma: •Asimetría La Facultad de Ingeniería aplicó un examen de física a 300 alumnos y se obtienen los siguientes resultados, con ellos se desea encontrar los siguientes resultados: a).- Obtener la tabla de frecuencias. b).-Representar el histograma de frecuencias. c).- Representar el Polígono de frecuencias. d).- Obtener la media, mediana y moda de los datos agrupados. e).- Obtener la desviación estándar para datos agrupados. f).- Encontrar la diferencia intercuartil. g).- Comentar los resultados. La tabla de resultados de presenta a continuación. 61 60 30 78 38 98 21 78 85 46 68 80 24 75 92 99 88 50 1 2 10 79 55 72 23 1 12 63 2 94 100 38 90 59 84 48 6 46 32 91 90 65 25 23 55 39 75 39 27 35 93 37 48 24 53 21 30 53 51 50 91 73 90 80 45 24 7 28 43 46 98 93 60 58 11 40 94 21 17 35 62 44 42 29 91 68 10 8 1 92 37 42 58 19 2 66 46 20 20 69 75 54 53 41 56 73 29 78 19 47 40 91 43 95 40 24 87 49 42 55 25 26 21 58 84 85 64 99 98 68 79 35 78 5 35 36 13 98 42 41 78 43 58 65 3 40 96 60 93 94 76 54 82 1 75 10 5 19 47 1 86 47 15 25 6 21 47 46 35 44 33 57 99 72 36 57 38 37 42 74 36 63 85 12 17 95 98 25 28 84 80 37 36 27 26 99 5 68 50 11 46 72 96 53 94 99 47 36 9 84 41 76 55 48 27 14 8 85 34 67 10 59 11 25 41 72 87 82 23 35 96 30 15 74 28 33 0 56 44 16 70 54 25 39 24 58 5 60 4 86 34 11 59 63 78 74 79 65 91 61 74 71 69 92 97 33 9 81 68 17 48 94 14 66 19 63 62 44 66 45 85 71 43 62 64 89 99 73 51 5 11 86 92 67 46 96 8 39 2 59