Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Curso de Estadística Dirigido a: Estudiantes de Carreras Técnicas e Ingenierías De Institutos Profesionales Edición revisada Marzo del 2006 Autor: Profesor Edgardo Ojeda Barcos Licenciado en Organización de la Producción, Universidad Argentina de la Empresa. Postítulo en Ingeniería de Calidad, Universidad de Santiago de Chile. Derechos de autor en trámite Derechos de autor en trámite Página 1 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos ÍNDICE Capítulo 1 1.1 1.2 Introducción al concepto de Estadística Gráficos Capítulo 2 2.1 2.2 2.3 Distribuciones de frecuencias, Histogramas Distribución de frecuencias acumuladas y ojivas. Ejercicios de aplicación Capítulo 3 3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 Capítulo 4 4 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 Capítulo 5 5 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 Promedios Media Aritmética Media Aritmética Ponderada Propiedades de la Media Aritmética Cálculo de la Media Aritmética para datos agrupados Ejercicios de aplicación. La Mediana La Moda Relación empírica entre la media aritmética, la mediana y la moda Medidas de la dispersión de una distribución de datos Dispersión o variación Rango o Intervalo La Desviación Típica Desarrollo de tres fórmula para el cálculo de la Desviación Típica Propiedades de la desviación Típica Varianza Desviación Media Ejercicios en clase. Ejercicios de Aplicación Cuantilos Definición Medidores de Tendencia Central Medidores de la Dispersión Procedimiento de Cálculo Procedimiento de Calculo para datos Agrupados Obtención de los valores correspondientes cuando el número de datos es distinto de 100 Ejercicios en clase. Ejercicios de aplicación. Capítulo 6 Derechos de autor en trámite Página 2 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 6 6.1 6.1.1 6.1.2 6.2 6.3 6.4 6.5 6.6 6.7 6.8 Teoría elemental de Probabilidades Definición de Probabilidad Definición Clásica Definición como Frecuencia Relativa Concepto de Probabilidad Regla de la adición de Probabilidades Regla del producto de las probabilidades Aplicación de ambas reglas Probabilidades con y sin reposición Probabilidad de las causas. Formula de Bayes – Laplace Ejercicios de aplicación. Capítulo 7 7 7.1 7.2 7.3 7.4 7.5 7.6 7.7 Análisis Combinatorio y Probabilidades Principio fundamental del análisis combinatorio Factorial de n Permutaciones Combinaciones Probabilidades y Análisis Combinatorio Generalización del número combinatorio y probabilidades Ejercicios de aplicación Capítulo 8 8 8.1 8.2 8.3 8.5 8.6 8.7 8.8 8.9 Las Distribuciones Binomial, Poisson y Normal La Distribución Binomial Distribución de Poisson Relación entre la Distribución Binomial y la Distribución de Poisson La Distribución Normal, Curva Normal o Distribución Gaussiana. Relación entre la Distribución Binomial y la Normal Ejercicios de comprensión sobre la Distribución Normal Distribución Hipergeométrica. Aproximación Normal a Binomial Ejercicios de aplicación. Capítulo 9 9 9.1 9.2 9.3 9.4 Correlación y Regresión Introducción Análisis de Correlación Análisis de Regresión Ejercicios de Aplicación Capítulo 10 10 10.1 10.2 10.3 Teoría del muestreo. Muestreo aleatorio. Distribución de muestreo. Muestreo de poblaciones pequeñas. 8.4 Derechos de autor en trámite Página 3 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Capítulo 11 11 11.1 11.2 11.3 11.4 11.5 11.6 11.7 Capítulo 12 12 12.1 12.2 12.3 12.4 12.5 12.6 12.7 12.7.1 12.7.2 12.8 Capitulo 13 13 13.1 13.2 13.3 Capitulo 14 14 14.1 14.2 14.3 14.4 14.5 14.6 14.7 14.8 14.9 14.10 Autor: Edgardo Ojeda Barcos Estimación Estimación por punto y por intervalo Intervalo de confianza Estimación de la media aritmética. Margen de error y coeficiente de confianza. No siempre se conoce el valor de la desviación típica poblacional. Distribución t, o Distribución de Student. Intervalos de confianza para las proporciones o porcentajes de defectuosos. Números Índices. Relaciones de precios. Relaciones de Cantidad o de Volumen Relaciones de valor Relaciones de Enlace y en Cadena. El método de agregación simple. El método de agregación Simple de relaciones. El método de agregación ponderada. Indice de Laspeyres. Indice de Paasche. Deflación de series en el tiempo. Series de Tiempo Análisis de series en el tiempo Estimación de las variaciones estacionales. El Índice Estacional Ejercicios de Aplicación Pruebas de Hipótesis Hipótesis Estadísticas. Contrastes de Hipótesis y significación, o reglas de decisión. Errores de Tipo I y de Tipo II . Nivel de significación. Contrastes mediante la distribución normal. Tres distintos niveles de significancia. Selección de un nivel de significancia. Uso de la distribución t para la toma de decisiones. Ejercicios de aplicación desarrollados. Ejercicios de Aplicación. Derechos de autor en trámite Página 4 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Capitulo 15 15 15.1 15.2 Autor: Edgardo Ojeda Barcos Análisis de Varianza Distribución F Análisis de Varianza y Cálculo de F, con una variable de clasificación. Bibliografía Derechos de autor en trámite Página 5 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Prólogo a la edición de Marzo de 2006. A mis queridos alumnos. El presente trabajo, tiene una finalidad claramente establecida, facilitar el estudio y la comprensión de la materia Estadística, a los estudiantes de Ingeniería y de carreras técnicas. El libro no tiene pretensiones de originalidad, por ello, y sin querer amenguar el mérito que tienen las variadas partes, que sí, son originales, el libro es una compilación de diversos autores y libros de estudio que actualmente están vigentes. Todas las fuentes que han sido consultadas, están catalogadas, al final del estudio. Por otra parte, en el contenido del libro, se han volcado todas las dudas y consultas frecuentes y que han sido recolectadas a lo largo de innumerables cursos realizados por el autor. Este libro, no pretende reemplazar la asistencia a clase, lo cual ha sido debidamente contemplado, es decir, la asistencia a clase sigue siendo indispensable para la correcta aprehensión de la materia. Tampoco se desea limitar a los alumnos a la exclusiva lectura de éste estudio, ya que un alumno de nivel terciario, tiene necesariamente que aprender a consultar distintas fuentes de información. A lo largo de sucesivas revisiones se han ido incorporando temas de interés para las distintas carreras, como Ingeniería Química, Alimentos, Prevención de Riesgos, de la Madera, etc, por lo cual, el libro se transforma en una herramienta de consulta para las distintas carreras de Institutos profesionales. Por último, una recomendación muy útil, si bien este consejo es válido para cualquier disciplina, en el estudio de la estadística, es particularmente importante. Para ser exitosos en el aprendizaje de la estadística se requiere ser persistente, tanto en la asistencia a clase como en la continuidad del estudio. La estadística es una cadena interminable que se va construyendo con un conocimiento arriba de otro; una clase que se pierde, un concepto que no se entiende, crea grandes lagunas difíciles de superar. Por esto recomiendo: a) asistir a todas las clases, b) llegar a cada clase con una comprensión suficiente de los conceptos vistos anteriormente para poder entender y participar en el desarrollo siguiente. El objetivo de todo futuro profesional es: APRENDER. Edgardo Ojeda Barcos Profesor de Estadística y Control de Calidad Santiago de Chile. Marzo de 2006. Derechos de autor en trámite Página 6 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Capítulo 1 1.1 Introducción al concepto de la Estadística La palabra estadística es un concepto muy conocido y por cierto muy amplio. Podríamos decir que la estadística tiene que ver con la recopilación y comprensión de datos numéricos. Sin embargo, para comprender mejor el campo de la Estadística nos referiremos a un ejemplo y dejaremos al estudiante la generalización de dicho ejemplo. Supongamos que por necesidades académicas necesitamos conocer la edad promedio de todos los alumnos del Inacap en todo el país. La forma perfecta de hacerlo sería consultar a los miles de alumnos a lo largo del país, y luego de una larga, tediosa y cara tarea, sumaríamos todas las edades, las dividiríamos por el total de alumnos y obtendríamos el dato buscado. Sin embargo, la Estadística nos ofrece un camino, más corto, más rápido y conveniente para obtener la información, suficientemente válida y muy cercana al dato anterior. Imaginemos que tenemos un gran recipiente donde colocáramos tantas fichas como alumnos y cada ficha tuviera el dato de la edad de cada alumno. Ese gran recipiente sería nuestro Universo o Población. Alguien con sentido común propondría tomar algunas fichas al azar y calcular el promedio de dicho pequeño grupo de unidades. Intuitivamente podremos aceptar que el dato obtenido no necesariamente será el valor verdadero del total de las fichas, pero sin duda guardará cierta relación y además será la mejor información disponible. DEFINICION DE ESTADISTICA Generalizando, podremos decir que la Estadística es la metodología científica que se encarga de INFERIR los valores de los parámetros de la Población o Universo mediante la extracción sistemática de MUESTRAS. Estas técnicas pueden además, darnos información acerca de la confiabilidad, (certeza) con que los datos son obtenidos. En los trabajos estadísticos podemos distinguir dos áreas de trabajo, la primera se llama Estadística descriptiva, y es la que se encarga de la recopilación, el ordenamiento e interpretación de la información o datos. La segunda área, es la llamada Estadística Inductiva o Inferencia Estadística, es decir la que por elaboración de los datos anteriores, nos ofrecen respuestas a los interrogantes planteados unidos a información probabilística acerca de la confiabilidad de dicha información. 1.2 Gráficos Derechos de autor en trámite Página 7 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos La estadística encuentra en los gráficos, una herramienta indispensable para ayudar a entender, interpretar y comunicar sus conclusiones. En éste estudio, solo veremos algunos de ellos. El primero será las llamadas Series de Tiempo. Crecimiento Demográfico en EE.UU. ( en millones de personas) Año Población 1860 70 80 31 40 50 90 1900 10 20 30 40 50 60 70 80 63 76 92 106 123 132 151 179 203 227 250 Millones 200 150 100 50 0 1860 70 80 90 1900 10 20 30 40 50 60 70 80 Años La misma información puede representarse como un gráfico o diagrama de barras. 250 Millones 200 150 100 50 0 1860 70 80 90 1900 10 20 30 40 50 60 70 80 Años Otros Gráficos Derechos de autor en trámite Página 8 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Datos de producción de una región hipotética: Año Tn trigo Tn maíz Total 75 76 77 78 79 80 81 82 200 185 225 250 240 195 210 225 75 90 100 85 80 100 110 105 275 275 325 335 320 295 320 330 Porcentual trigo 73 % 67 % 69 % 75 % 75 % 66 % 66 % 68 % Gráfico de trazos 250 200 150 T r ig o Tn M a iz 100 50 0 75 76 77 78 79 80 81 82 Años Derechos de autor en trámite Página 9 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Gráfico de Barras 300 250 200 Trigo Tn 150 Maiz 100 50 0 75 76 77 78 79 80 81 82 Años Gráfico de Barras Acumuladas 400 350 300 250 Maiz Tn 200 Trigo 150 100 50 0 75 76 77 78 79 80 81 82 Años Derechos de autor en trámite Página 10 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Gráfico de Barras Porcentuales 120 100 80 Maiz Tn 60 Trigo 40 20 0 75 76 77 78 79 80 81 82 Años Gráfico de barras horizontales 81 79 Años Trigo 77 75 0 50 100 150 200 250 300 Tn Derechos de autor en trámite Página 11 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Gráfico circular abierto. praderas 34% bosques 12% areas urbanas desiertos bosques desiertos 10% praderas huertas 10% huertas areas sembradas areas urbanas 6% areas sembradas 28% 1.3 Ejercicios de Aplicación. El siguiente listado de ejercicios pertenece al libro Estadística de Murray Spieguel, el alumno deberá resolverlos como parte de su desarrollo académico. 1.3, 1.4, 1.5, 1.6, 1.8, 1.9, 1.10, 1.16, 1.17, 1.18, 1.19, 1.20, 1.21, 1.22, 1.23, 1.24, 1.23, 1.27, 1.29, 1.30, 1.48, 1.52, 1.59, 1.71, 1.76. Derechos de autor en trámite Página 12 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Capítulo 2 2.1 Distribuciones de frecuencias, Histogramas Cuando se realiza una recolección de datos muy extensa, por ejemplo, 50 o más datos, resulta muy difícil interpretar la información recibida. Una primera investigación que podríamos realizar, sería la de encontrar el mayor valor y el menor de ellos lo cual nos informaría acerca del INTERVALO el cual se encuentran todos los datos. Lo segundo podría ser ordenarlos de menor a mayor, pero aun seguiría siendo una larga lista de números. El siguiente procedimiento, nos permitirá ordenarlos e interpretar valiosa información estadística. Este ordenamiento consiste en crear CLASES, dentro de las cuales clasificaremos los datos. El procedimiento es dividir la distancia del INTERVALO en intervalos más cortos que llamaremos clases. La pregunta que nos haremos es: ¿en cuantas clases dividiremos el INTERVALO? Existe una regla empírica, (práctica) que dice lo siguiente: Si el total de datos es n, el número de clases que buscamos será n Para entenderlo mejor, haremos un ejemplo. Supongamos que se han tomado 84 datos de una medida de diámetros de ejes para un instrumento de precisión. Los datos tal como se obtuvieron son: 881 886 885 889 910 912 880 875 883 874 915 907 905 890 889 891 846 881 933 928 874 925 892 893 872 911 878 866 885 905 861 955 904 869 866 924 882 893 939 868 910 876 877 867 901 894 885 903 890 920 894 891 916 887 898 879 859 901 915 901 863 899 886 912 923 888 896 897 865 892 857 907 878 870 902 921 891 880 906 883 867 895 889 882 En total son 84 mediciones, por lo tanto n = 84 El mayor valor es El valor mínimo es 955 846 El INTERVALO es 109 Derechos de autor en trámite Página 13 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos De acuerdo con la regla empírica, descrita anteriormente, el número de CLASES que deberemos hacer será 84 9.17 , este número debe aproximarse al valor entero, es decir 9. El paso siguiente será, dividir el INTERVALO, 109, por el dato hallado, 109 / 9 = 12.1 Nuevamente deberemos tomar el número entero, es decir 12. El número 12 es par, existen razones que veremos mas adelante para preferir que este número sea impar, por lo tanto elegiremos 11, ¿podría servir 13? La respuesta es sí, pues éste es un procedimiento aproximado. Este valor es denominado: ANCHO DE CLASE. Bien, este ANCHO DE CLASE: 11, nos servirá para construir nuestras CLASES. ¿Por cual número comenzaremos? Es costumbre comenzar exactamente por el menor de los datos encontrados, es decir 846, pero podríamos empezar por algún otro número, algo menor por ejemplo 840 y el resultado obtenido sería igualmente válido. Para nuestro ejemplo comenzaremos con el mínimo leído, esto es 846 y lo utilizaremos como LÍMITE INFERIOR DE LA CLASE 1. Para hallar el LÍMITE DE LA CLASE 2, sumaremos 11 a 846, es decir que el límite de la clase 2 es: 857, y el de la clase 3 será 868. Nos queda ahora, determinar el LÍMITE SUPERIOR DE LA CLASE 1 y subsiguientes. El LÍMITE SUPERIOR DE LA CLASE 1 será una unidad significativa menor que el límite inferior de la clase 2, es decir: 856 y el límite superior de la clase 2 será: 867. De esta forma las clases serán: CLASES 1 2 3 4 5 6 7 8 9 10 LIMITE INFERIOR 846 857 868 879 890 901 912 923 934 945 LIMITE SUPERIOR 856 867 878 889 900 911 922 933 944 955 En este paso debemos preguntarnos, ¿porqué son 10 las clases, si habíamos calculado 9?. Porque descartamos el 12 y preferimos el número impar (11), Ahora tenemos que determinar con qué FRECUENCIA caen los datos dentro de estas celdas llamadas CLASES. Derechos de autor en trámite Página 14 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Para ello procederemos a marcar con un pequeño trazo vertical, cada dato dentro de su clase, Por ejemplo, los números 881 y 880, pertenecen a la clase 4 y el número 905 a la clase 6. De esta forma se registran los 84 datos. Así se construye la siguiente tabla: CLASES LÍMITE LÍMITE DIAGRAMA FRECUENCIA INFERIOR SUPERIOR DE TILDES DE CLASE 1 846 856 / 1 2 857 867 //// //// 9 3 868 878 //// //// / 11 4 879 889 //// //// //// //// 19 5 890 900 //// //// //// / 16 6 901 911 //// //// //// 14 7 912 922 //// // 7 8 923 933 //// 5 9 934 944 / 1 10 945 955 / 1 84 84 TOTAL Este perfil obtenido con el diagrama de frecuencias ya nos está dando valiosa información estadística, vemos que los datos están concentrados con preferencia alrededor de la CLASE 4 y que un valor representativo del grupo debería estar dentro de esa clase. Para terminar con el estudio de los diagramas de frecuencia, veremos algunas características más que serán necesarias en cálculos futuros: ANCHO DE CLASE, en nuestro ejemplo es 11, y se obtiene como diferencia entre el límite inferior de una clase y el límite inferior de la clase inmediatamente anterior. MARCA DE CLASE, es el promedio entre los límites superior e inferior de una clase determinada. Por ejemplo, para la clase 1 de nuestro ejemplo, tenemos: Limite inferior de la clase: Limite superior de la clase: 846 856 Promedio: (846+856)/2 = 851 Por lo tanto, la MARCA DE CLASE del grupo 1 será 851.En éste punto recordaremos que al principio de éstos cálculos mencionamos que era conveniente utilizar un número impar. Ahora explicaremos el porqué de esa recomendación. Derechos de autor en trámite Página 15 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Si el numero no hubiera sido impar, la MARCA DE CLASE, no hubiera sido un número exacto, hubiera tenido un valor decimal que habría que mantener, necesariamente, y esto trae aparejado, un aumento de las posibilidades de error en los cálculos. Sin embargo, si pese a la recomendación de usar impar, prefirió un número par, no habrá error si mantiene durante todos los cálculos, el valor decimal que se genera por dicha causa. En nuestro caso, no hay decimales, la marca de clase de la clase uno dio 851 exacto. Luego sumamos el ancho de clase, 11, para hallar las marcas de clases sucesivas. CLASES LÍMITE LÍMITE INFERIOR SUPERIOR 1 846 856 851 1 2 857 867 862 9 3 868 878 873 11 4 879 889 884 19 5 890 900 895 16 6 901 911 906 14 7 912 922 917 7 8 923 933 928 5 9 934 944 939 1 10 945 955 950 1 TOTAL MARCA CLASE DE FRECUENCIA DE CLASE 84 Es recomendable, calcular primero la frecuencia y después la marca de clase para que esta columna no interfiera durante la clasificación de los datos. DISTRIBUCIÓN DE FRECUENCIA: Se denomina Distribución de Frecuencia, al resultado de la marca de clase, que posteriormente será la variable X y la frecuencia que corresponde para cada valor de la marca de clase. Derechos de autor en trámite Página 16 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Distribución de Frecuencia: MARCA DE FRECUENCIA CLASE (X) DE CLASE 851 1 862 9 873 11 884 19 895 16 906 14 917 7 928 5 939 1 950 1 84 HISTOGRAMA Con los datos de la distribución de frecuencias se procede a construir el histograma. HISTOGRAMA 19 20 18 16 FRECUENCIA 16 14 14 11 12 9 10 7 8 5 6 4 2 1 1 1 939 950 0 851 862 873 884 895 906 917 928 CLASES Derechos de autor en trámite Página 17 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos FRONTERA DE CLASE: La FRONTERA DE CLASE , es un punto en la Clasificación de clases intercalado entre las marcas de manera que no caiga en ninguna de las dos clases contiguas. Esto se logra promediando el Límite Superior de una clase con el Límite Inferior de la siguiente, y tomando un decimal más que la última cifra significativa, según los datos que se estudian. En nuestro ejemplo, la FRONTERA DE CLASE entre la 1º y 2º clase será: 856,5 Luego entre la 3º y 4º será : 878.5 La siguiente tabla resumen figuran todos los datos estudiados: CLASES L. I. L. S. MARCA FRONTERAS FRECUENCIA 1 846 856 851 845.5 1 2 857 867 862 856.5 9 3 868 878 873 867.5 11 4 879 889 884 878.5 19 5 890 900 895 889.5 16 6 901 911 906 900.5 14 7 912 922 917 911.5 7 8 923 933 928 922.5 5 9 934 944 939 933.5 1 10 945 955 950 944.5 1 Total 84 Para terminar de interpretar los HISTOGRAMAS, el alumno puede imaginar que los valores de las fronteras de clases, están exactamente en las líneas que separan cada uno de los bloques del HISTOGRAMA. 2.2 Distribuciones de Frecuencias Acumuladas y Ojivas La frecuencia total de todos los valores menores que la frontera de clase superior de un intervalo de clase dado se llama FRECUENCIA ACUMULADA hasta ese intervalo de clase inclusive. Una tabla que presente tales frecuencias acumuladas se denomina una DISTRIBUCIÓN ACUMULADA. Derechos de autor en trámite Página 18 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Un gráfico que represente las frecuencias acumuladas por debajo de cualquiera de las fronteras de clase superiores respecto de dicha frontera se llama un POLÍGONO DE FRECUENCIAS ACUMULADAS U OJIVA A continuación, desarrollaremos un ejemplo, la altura de 100 estudiantes de una universidad XYZ, este ejemplo fue tomado del libro “Estadística” de Murray R, Spiegel y lo utilizaremos para varios desarrollos como el que sigue: Altura en metros. 1.51 - 1.59 1.60 - 1.68 1.69 - 1.77 1.78 - 1.86 1.87 - 1.95 Total Marca 1.55 1.64 1.73 1.82 1.91 Frecuencias 5 18 42 27 8 100 F. Acumulada F. relativa 5 5 23 18 65 42 92 27 100 8 100 Nota: la frecuencia relativa coincide con las frecuencias, simplemente por n=100, si n es cualquier otro valor, ambas columnas, no coincidirán. Otros detalles son Limite inferior ...... 1.51 1.60 1.69 1.78 1.87 Limite Superior ...... 1.59 1.68 1.77 1.86 1.95 Frontera 1.505 1.595 1.685 1.775 1.865 1.955 Ancho de Clase .09 .09 .09 .09 .09 El siguiente gráfico explica lo anterior: 120 Frecuencias 100 HISTOGRAMA Y OJIVA 80 60 42 40 20 27 18 8 5 0 1,55 1,64 1,73 1,82 1,91 Altura 2.3 Ejercicios de Aplicación. El siguiente listado de ejercicios pertenece al libro Estadística de Murray Spieguel, el alumno deberá resolverlos como parte de su desarrollo académico. Derechos de autor en trámite Página 19 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Capítulo 2: Para resolver estos problemas, el alumno deberá usar los métodos y criterios vistos en clase, los cuales difieren de los usados en el libro. Distribución de frecuencias: 2.2, 2.3, 2.6, 2.7, 2.20, 2.21, 2.23, 2.26, 2.27, 2.28, 2.29. Derechos de autor en trámite Página 20 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Capítulo 3 3 Promedios La palabra PROMEDIO, es una palabra genérica, es decir, existen varios tipos de PROMEDIOS. Los PROMEDIOS que estudiaremos son: MEDIA, MEDIANA, MODA, MEDIA GEOMÉTRICA Y MEDIA ARMÓNICA. Los promedios tienen en común que buscan el valor central de los datos estudiados. Por esta razón se los denomina: MEDIDORES DE LA TENDENCIA CENTRAL. 3.1 Media Aritmética Para definir la Media Aritmética, primero describiremos algunos conceptos básicos: NOTACIÓN DE ÍNDICES: de los N datos. Si tenemos un universo de N datos, Xj será cualquiera valores., esto es: X1, X2 ,..., XN N NOTACIÓN DE SUMA: X J X1 X2 ... XN J1 UNIVERSO o POBLACIÓN: Son todos los valores o datos que existen. MUESTRA: Es un parte tomada al azar de la POBLACIÓN, y que son representativos de la POBLACIÓN. DEFINICIÓN DE LA MEDIA ARITMÉTICA: Es la suma de todos los valores de la POBLACIÓN o de la MUESTRA, dividido por el numero total de los datos considerados. MEDIA ARITMÉTICA = X X 1 X 2 ... X N N X N Muy frecuentemente, uno o varios datos de los registrados se repiten, es dicho caso la fórmula anterior de interpreta de la siguiente manera: Si los datos : X1, X2 ,..., XN se repiten con frecuencia f1, f2 ,..., fk veces, entonces la MEDIA ARITMÉTICA se define de la siguiente forma: k f . X f . X ... fk . Xk X 1 1 2 2 f1 f2 ... fk fX j j j 1 k f j j 1 El siguiente ejemplo aclarará el concepto: Si los datos: 5, 8, 6, y 2 ocurren con frecuencias 3, 2, 4, y 1 Derechos de autor en trámite Página 21 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales X Autor: Edgardo Ojeda Barcos 3 * 5 2 * 8 4 * 6 1* 2 5.7 3 2 41 Con respecto a los índices utilizados en las fórmulas de las medias, el estudiante habrá notado que en la primera fórmula, el subíndice utilizado, es N, esto es el total de unidades consideradas y en el segundo caso, cuando hay repetición de algunos datos, el subíndice utilizado es k. En éste último caso k es el numero de datos distintos, sin repetición, de ésta manera, la sumatoria de las frecuencias será igual a N El siguiente ejemplo, aclara lo que hemos dicho: Datos 3 4 5 8 9 Frecuencia 2 1 3 5 3 Es decir, tenemos 2 datos 3, 1 dato 4, 3 datos 5, etc. El total de datos es 3*2+4*1+5*3+8*5+9*3 = 92, entre si son solo 5, por ello es k = 5 N = 92 , pero los datos diferentes 3.2 Media Aritmética Ponderada: esta variante de la media aritmética, se usa cuando se hace necesario dar distinto “peso” a cada dato. Esto significa, asociar con los datos en estudio, con factores o “pesos” : W1, W2 ,..., WK De esta forma, la MEDIA ARITMÉTICA PONDERADA X es: X 1 W1 X 2 W2 ... X k Wk W1 W2 ... WK Un ejemplo típico de esto es la ponderación de las notas de los parciales y los exámenes finales en INACAP. El reglamento indica que la nota final (PROMEDIO PONDERADO), estará formado por el 75% del promedio de notas de los parciales y el 25% de la nota final. Si un alumno tiene promedio 6.5 en los parciales y 4,9 en el final la nota será: MEDIA ARITMÉTICA PONDERADA = Derechos de autor en trámite 6.5 * 0.75 4.9 * 0.25 6.1 0.75 0.25 Página 22 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Nótese que la MEDIA ARITMÉTICA (no ponderada) es 5,7 3.3 Propiedades de la Media Aritmética. Propiedad Nº 1 La suma algebraica de las desviaciones de un conjunto de números respecto de su media aritmética es cero. Ejemplo: Las desviaciones de los números: 8, 4, ARITMÉTICA cuyo valor es : 6.5 son: Datos menos 8 4 3 11 7 6 - 3, 11, Media Aritmética 6.5 6.5 6.5 6.5 6.5 6.5 7 y 6 respecto de su MEDIA igual Desviación = = = = = = +1.5 -2.5 -3.5 +4.5 +0.5 -0.5 total: +0.00 Probar genéricamente que la suma de las desviaciones de X1, X2, ... Xn respecto de su MEDIA ARITMÉTICA es cero Las desviaciones con respecto a la media se denotan de la siguiente manera: d1 X1 d2 ... X2 ... X ... ... dN XN X X Entonces: n d j j 1 X n j 1 J X X X X X N X X X X NX X N Derechos de autor en trámite 0 Página 23 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Con esto queda demostrada la propiedad. Propiedad nº 2 La suma de los cuadrados de las desviaciones de un conjunto de números Xj respecto de un cierto número a es mínima, si y solo si, a = Media Aritmética. N (X j a)2 minimo j 1 si y solo si a= X Esta propiedad la podemos comprobar usando los datos que se dieron en el ejemplo de la propiedad nº 1 Si a es 6,5 o sea la media aritmética el resultado de la sumatoria de los cuadrados es : 41.50 Si a fuera 6 el resultado de dicha suma es 43,00 Se sugiere al alumno calcular el resultado para a = 8 Esta propiedad es conceptualmente importante para futuros desarrollos. Propiedad nº 3 Si n1 números tienen media m1, y n2 números tienen media m2, y ..., nk números tienen media mk , entonces la media de todos los números es: X n1m1 n2m2 ...nkmk n1 n2 ...nk Veamos un ejemplo: Los 90 empleados de la sucursal A de una Empresa ganan en promedio $ 230.000, y los 75 empleados de la sucursal B ganan en promedio $ 325.000. ¿Cual es el promedio de sueldos de las dos sucursales? X nm 90 * 230.000 75 * 325000 273.182 90 75 n Derechos de autor en trámite Página 24 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Propiedad nº 4 Esta propiedad parte de la suposición de que empezamos los cálculos suponiendo o estimando cual podría ser el valor de la MEDIA ARITMÉTICA, técnicamente esto significa que estamos conjeturando la media. La propiedad se enuncia de la siguiente manera: Si A es una MEDIA SUPUESTA O CONJETURADA y si dj = xj - A son las desviaciones de xj respecto de A, tenemos que: Para datos sin repetición: X A+ Para datos con repetición: X A+ Donde: d N fd N N = f Esta última ecuación es importante y debemos insistir en el concepto de que el número total de datos, N , es igual a la sumatoria de todas las frecuencias, f El siguiente ejercicio demuestra y generaliza la propiedad º 4. a) Para N datos sin repetición, Si N números, X1, X2, ...,XN, tienen desviaciones respecto de un número A, dadas por: d1 = X1 - A d2 = X2 - A ... ... ... dN = XN - A Probar que : X A+ fd N Solución: Como dj = Xj - A es Xj = A + di Multiplicando ambos miembros de la ecuación por el operador sumatoria y dividiendo por N nos queda: Derechos de autor en trámite Página 25 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales N X X (A + d) N Autor: Edgardo Ojeda Barcos A d A + d N N N Nótese que el signo se anula con N pues la sumatoria de A es N veces A. b) Para el caso en que X1, X2, ...,XN tengan frecuencias f1, f2, ..., fN y d1 = X1 - A d2 = X2 - A ... ... ... dk = Xk - A Probar que: X f X f (A+ d) f A f d A + f d N N N N N Pues f = N 3.4 Cálculo de la media aritmética para datos agrupados Para el cálculo de la media aritmética, utilizaremos tres tipos de fórmulas. Estas se denominan fórmulas larga, corta y de compilación respectivamente. La fórmula larga es la aplicación de la definición de la MEDIA ARITMÉTICA es decir la fórmula “madre”: X fX N La fórmula corta es la aplicación del método de la MEDIA CONJETURADA, es decir, donde desde el principio del cálculo, conjeturamos el valor de la MEDIA ARITMÉTICA como un valor A y determinamos el valor de las diferencias entre dicho valor A y cada una de las X, Derechos de autor en trámite Página 26 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales X A+ Autor: Edgardo Ojeda Barcos fd N El método por compilación requiere una transformación de la última fórmula. Si todos los intervalos de clase tienen idéntico ancho de clase c, las desviaciones pueden expresarse como: dj = c * uj donde, uj pueden ser 0, 1, 2, etc. y la fórmula de la media aritmética se convierte en: fu X A + c N llamada Fórmula del Método de Compilación para calcular la Media Aritmética. 3.5 Ejercicio de aplicación El siguiente ejercicio, basado en la distribución de frecuencias vista en el capítulo nº 2, se utilizará las tres fórmulas vistas en los párrafos anteriores. Recordemos la distribución, se trata de la altura de 100 estudiantes y el diagrama de frecuencias es el siguiente: Altura = X 1.55 1.64 1.73 1.82 1.91 frecuencia 05 18 42 27 08 f=N=100 Desarrollo fórmula nª 1, Método Largo Altura = X 1.55 1.64 1.73 1.82 1.91 X frecuencia 05 18 42 27 08 f=N=100 fX 07.55 29.52 72.66 49.14 15.28 fX=174.35 fX 174.15 1.74 f 100 Derechos de autor en trámite Página 27 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Desarrollo fórmula nº 2, Método Corto Debemos partir haciendo una conjetura de cual puede ser la media del conjunto de datos, observando la distribución es fácil concluir que la media aritmética se encontrará cerca de 1,73 metros. De ésta forma diremos que A es igual a 1,73. A: ===> Altura = X 1.55 1.64 1.73 1.82 1.91 X A frecuencia = f 05 18 42 27 08 f=N=100 desviación d=X-A -0.18 -0.09 +0.00 +0.09 +0.18 fd -0.90 -1.62 +0.00 +2.43 +1.44 fd=+1.35 135 . fd 173 . 174 . N 100 Desarrollo fórmula nº 3, Método de Compilación. En éste cálculo deberemos aplicar el concepto: d = cu, siendo u una variable que puede ser: 0, ±1, ±2, ±3, etc. Seguimos conjeturando que A = 1.73, pero ahora, vamos a observar que en la columna d del calculo anterior, los números -0.18, -0.09, 0.00, 0.09, y 0.18, tienen como factor común el número 0.09. Por lo tanto, si sacamos este factor común, los números de la columna quedarán reducidos a los valores: -2, -1, 0, 1, 2 de tal forma el esquema de cálculo es el siguiente: (en este razonamiento se volverá a insistir, cuando se estudie la desviación típica) X 1.55 1.64 1.73 1.82 1.91 f 5 18 42 27 8 f=100 u -2 -1 +0 +1 +2 fu -10 -18 +00 +27 +16 fu=15 fu 15 c 173 X A . . 0.09 174 100 N Finalmente destaquemos los siguientes aspectos importantes: 1º La MEDIA CONJETURADA puede ser cualquier X dentro de los datos en estudio, pero cuanto mas cercano esté al verdadero valor, menores serán los cálculos por Derechos de autor en trámite Página 28 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos realizar. Por la forma de la distribución es fácil conjeturar donde se encontrará la MEDIA ARITMÉTICA. El procedimiento aconsejado es conjeturar la marca de clase que presente la mayor frecuencia de datos. 2º Cualquier X que sea elegido, el resultado final será siempre el mismo. 3.6 La Mediana La MEDIANA de un conjunto de datos ordenados en magnitud, es, o el valor central, o la media de los dos valores centrales. Ejemplo: 5, 6, 8, 9, 11, 15, 17 La MEDIANA es el número 9, pues antes que él, hay 3 números y después de él hay otros 3. 5, 6, 8, 9, 11, 15, 17, 19 Ahora la MEDIANA es la media aritmética entre el número 9 y el 11, o sea 10. El símbolo que representa a la MEDIANA es el siguiente: ~ X Geométricamente, la MEDIANA, es el valor de X, que corresponde a la recta que divide un HISTOGRAMA en dos partes de igual área. El siguiente ejemplo sirve para destacar ciertas cualidades de la MEDIANA frente a la MEDIA ARITMÉTICA. Cinco empleados de una Empresa, ganan $4.52, $5.96, $5.28, $11.2, y $5.75 la hora. Hallar la MEDIANA, y la MEDIA ARITMÉTICA. Lo primero que debemos hacer es ordenar los datos: 4.52, 5.28, 5.75, 5.96, 11.20 Por lo tanto, la MEDIANA es: 5.75 La MEDIA ARITMÉTICA es 6.54 Como puede apreciarse, la MEDIANA, no está afectada por el valor extremo 11.20, tal como lo está la MEDIA ARITMÉTICA. El valor 6.54 esta fuertemente sesgado (corrido) hacia la derecha por causa de un valor que no parece ser del grupo al cual corresponden los otros cuatro datos. Esta cualidad hace que la MEDIANA sea muy útil para el estudio de sueldos Ejercicio: En la tabla que sigue, se estudian los pesos de 40 unidades de un producto X, con la precisión de 1 gramo. Construir la tabla de frecuencias, hallar la media aritmética, y calcular la mediana por interpolación y por cálculo directo 138, 146, 168, 146, 161, 164, 158, 126, 173, 145, 150, 140, 138, 142, 135, 132, 147, 176, 147, 142, 144, 136, 163, 135, 150, 125, 148, 119, 153, 156, 149, 152, 154, 140, 145, 157, 144, 165, 135, 128 Derechos de autor en trámite Página 29 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Los pesos máximo y mínimo son: 176 y 119, el intervalo o rango es 57. Elegiremos un ancho impar = 7. El diagrama de frecuencias resultante es: Clases 118-124 125-131 132-138 139-145 146-152 153-159 160-166 167-173 174-180 Marca clase 121 128 135 142 149 156 163 170 177 de Distribución marcas / /// ///// // ///// /// ///// //// ///// //// // / de frecuencias 1 3 7 8 9 5 4 2 1 f=40 u fu -4 -3 -2 -1 0 1 2 3 4 - 4 - 9 -14 - 8 0 5 8 6 4 fu=-12 fu 12 c 149 X A 7 147 40 f X 147 Calculo de la MEDIANA por el método de la interpolación. f 118-124 sería el 125-131 132-138 139-145 146-152 153-159 tres 160-166 167-173 escala 174-180 0.8 ___ Por lo tanto, para “llegar” al dato 20, que 121 / 1 128 /// 135 ///// // 142 ///// /// 149 ///// //// 156 ///// 3 de la MEDIANA, necesitamos 1, que lo toma7 19 datos remos de la clase 149 8 __ 9 _ _ 5 El cálculo interpolando, será por regla de 163 //// 170 // 4 12 datos 2 Si 9 datos, producen un salto de 7 en la 177 / 1 _ _ de las X, 1 producirá, proporcionalmente Para hallar la MEDIANA sumaremos este valor hallado, 0,8 a la frontera de la clase correspondiente, en éste caso, 145.5, 145.5 + 0.8 = 146.3 Derechos de autor en trámite Página 30 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales El resultado del cálculo de la MEDIANA por interpolación es Autor: Edgardo Ojeda Barcos 146.3 Por último, podríamos darnos la tarea de ordenar todos los datos, y encontrar el valor 20 y 21 y hallar la media: 119, 125, 126, 128, 132, 135, .................., 145, 145, 146, 146, 147........... 1. 2, 3, 4, 5, 6, ................., 18, 19, 20, 21, 22.......... De acuerdo a la definición, la MEDIANA es la media entre los valores 20 y 21, esto es: 146 3.7 La Moda Otro de los medidores de la tendencia central es la MODA. La MODA el valor que más se repite, es decir el de mayor frecuencia. La MODA puede no existir, e incluso, puede no ser única. El símbolo de la moda es: X 3.8 Relación empírica entre la Media Aritmética, la Mediana y la Moda. Para curvas de frecuencias unimodales y que sean poco asimétricas, tenemos la siguiente relación empírica: MEDIA - MODA = 3 ( MEDIA -MEDIANA) 3.9 Media Geométrica. La media geométrica G de un conjunto de números positivos, X1 , X2 , ..... , XN es la raíz enésima del producto de todos esos números: G N X1. X2 . ... . XN Ejercicio 1 : La media geométrica de 2, 4, y 8 es: G 3 2.4.8 3 64 4 Ejercicio 2 : Hallar a) la media geométrica y b) la media aritmética de los números Derechos de autor en trámite Página 31 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 3, 5, 6, 6, 7, 10 y 12 G 7 3x5 x6x6x7x10x12 7 453.600 logG 1 (log453.600) 0.8081 7 G 6.4 X 1 3 5 6 6 7 10 12 7 7 Esto ilustra el hecho que la media geométrica de un conjunto de números positivos en menor que la media aritmética Ejercicio 3 : Los números X1,X2, ... XK ocurren con frecuencia f1, f2 ... fk G N X1X1...X1 X 2 X 2 ...X2 ... Xk Xk ...Xk f1veces f2 veces fk veces G N X1f1 X 2f2 ...Xkfk logG 1 1 log(X1f1 X 2f2 ...Xkfk ) f1logX1.f2logX2 ...fk logXk N N 1 N f .logX f logX N k j j j1 3.10 Media armónica. La MEDIA ARMÓNICA H, de un conjunto de números X1,X2, ... XN es el recíproco de la media aritmética de los recíprocos de esos números. 1 H 1 N N X j1 1 j N X 1 En la práctica es más fácil recordar que : Derechos de autor en trámite Página 32 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales 1 1 H N Autor: Edgardo Ojeda Barcos 1 X Ejemplo: Una persona viaja de A a B con una velocidad media de 40 km. por hora y regresa a 100 Km. por hora. La distancia entre A Y B es de 400 Km. Entonces: Tiempo para ir de A a B = 400 Km 10 h 40 Km h Tiempo para ir de B a A = 400 Km 4h 100 Km h Tiempo total : 14 hs. Recorrido total = 800 Km. Velocidad promedio: 800 Km 57.14 hora 14 Este promedio es la media armónica de 40 y 100 1 H 1 N N X j1 1 j N 1 X 2 Km 57.14 hora 1 1 40 100 Nótese que podríamos haber estado tentados a tomar la media aritmética de 40 y 100 = 70 km./h, lo cual es incorrecto. Relación entre las medias aritmética, geométrica y armónica H G X 3.11 Ejercicios en clase. Mediante la utilización de urnas con datos de una población normal, se deberá elaborar en clase el siguiente trabajo: a) b) c) d) e) f) Extracción de 40 datos con participación de todos los alumnos. Elaboración de la distribución de frecuencias. Histograma. Cálculo de la media aritmética. Cálculo de la moda. Cálculo de la mediana por interpolación. 3.12 Ejercicios de Aplicación. El siguiente listado de ejercicios pertenece al libro Estadística de Murray Spieguel, el alumno deberá resolverlos como parte de su desarrollo académico. Derechos de autor en trámite Página 33 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Capítulo 3 Media Aritmética: 3.6, 3.7, 3.8, 3.9, 3.10, 3.11, 3.19, 3.23, 3.24, 3.55, 3.59, 3.60, 3.61. Mediana: 3.28, 3.29. Moda: 3.31 Derechos de autor en trámite Página 34 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Capitulo 4 4 Medidas de la dispersión de una distribución de datos. 4.1 Dispersión o Variación. La dispersión o variación de los datos intenta dar una idea de cuán repartidos se encuentran éstos. Hay varias medidas de tal dispersión, siendo las más comunes el RANGO o INTERVALO y la DESVIACION TIPICA. Existen otros estimadores, pero están fuera del propósito de éste curso. 4.2 Rango o Intervalo Es la diferencia entre el valor mayor y el valor menor de todos ellos. Ejercicio: Hallar el RANGO de los conjuntos : Grupo 1: 12, 6, 7, 3, 15, 10, 18, 5 Grupo 2: 9, 3, 8, 8, 9, 8, 9, 18 Solución: En primer lugar tendremos que ordenar los datos: Grupo 1 : 3, 5, 6, 7, 10, 12, 15, 18 Grupo 2 : 3, 8, 8, 8, 9, 9, 9, 18 En ambos casos vemos que el resultado es 15, y observamos que el RANGO no tiene la capacidad de informarnos sobre lo que sucede dentro del grupo, pues una rápida inspección nos deja ver que el grupo 1 es mucho más disperso que el grupo 2. Esto es una limitación a tener en cuenta en los estudios, sin embargo, el RANGO es el medidor de dispersión más utilizado por la facilidad de cálculo. En nuestro ejemplo, se puede mejorar la información, si decidimos eliminar, en ambos grupos, los valores extremos, así, el RANGO sería 10 para el grupo 1 y 1 para el grupo 2. Como conclusión, podremos decir, que cuando hay valores muy extremos, el rango es una pobre medida de la dispersión. 4.3 La Desviación Típica La DESVIACIÓN TÍPICA es el medidor de la dispersión más importante. DEFINICIÓN: La DESVIACIÓN TÍPICA de un conjunto de N números: X1, X2, ...XN se denota por y se define por: X Derechos de autor en trámite j 1 2 N j X N X X 2 N Página 35 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Si X1, X2, ...,Xk se repiten con frecuencias f1, f2, ..., fk, la desviación típica se expresa como: f X k j σ j X 2 j1 f 2 k f X X N pues f=N j j1 Sobre el tamaño de N: Hay un aspecto importante con respecto al tamaño de N. Si N es 30 o menor a 30, el cociente en la fórmula, deberá ser N – 1. La demostración de esta conveniencia no entra en los alcances de este curso, pero debe considerarse que la respuesta es mejor cuando se divide por N – 1. Esta consideración es extensiva a todos los desarrollos de fórmulas que veremos a continuación. Ahora es necesario analizar un aspecto de las denominaciones. Existe en la bibliografía diversos criterios para la denominación de la desviación típica y de la media aritmética. Población y Muestra, Estadísticos y Parámetros. El alumno tiene que tener muy claro a esta altura del desarrollo de la materia, los conceptos de UNIVERSO O POBLACION y de MUESTRA. El UNIVERSO O POBLACION son todos los individuos que lo componen, por ejemplo, todos los estudiantes del país del INACAP o la producción de clavos de todo un día. MUESTRA es una cantidad estadísticamente seleccionada y tomada al azar que representa al UNIVERSO O POBLACION. A partir de ahora nosotros llamaremos al total de datos POBLACION. Las diferentes denominaciones que utilizaremos son las siguientes, el alumno deberá estar atento a los cambios de la denominación , según lo que se esté tratando. En general, la letras griegas corresponde a la población, y las letras latinas a las muestras, usando siempre, las letras griegas para los desarrollos de fórmulas. Derechos de autor en trámite Página 36 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales La MEDIA ARITMETICA de la POBLACION se denomina con el signo griego: La MEDIA ARITMETICA de la MUESTRA se X denomina con el signo: La CANTIDAD DE DATOS DEL UNIVERSO se denomina con la letra: N Autor: Edgardo Ojeda Barcos La DESVIACION TIPICA de la POBLACION se denomina con el signo griego: La DESVIACION TIPICA de la MUESTRA se denomina con el signo: S La CANTIDAD DE DATOS DE LA MUESTRA se denomina con la letra: n Por otra parte, llamaremos Estadísticos a los medidores de la muestra, es decir a la Media Aritmética y la Desviación Típica de la Muestra: X y S, y llamaremos Parámetros a los medidores que describen la Población entera: y Ejercicios de comprensión: Hallar la S para los siguientes conjuntos de números: a) 3, 5, 6, 7, 10, 12, 15, 18 a) X X 76 9.5 N 8 X 9.5 8 a) S b) j1 3, 8, 8, 8, 9, 9, 9, 18 X b) j 8 1 X 2 8 2 5.2 b) S j1 72 9 8 j 9.0 8 1 4.1 Como se puede apreciar, la DESVIACION TIPICA da un valor significativamente inferior para b) respecto de a), lo cual indica que los datos están menos dispersos en este último grupo, cosa que pudimos apreciar observando directamente los datos. Por esta razón la DESVIACION TIPICA es un excelente medidor de la dispersión de los valores alrededor del dato central, usualmente, la MEDIA ARITMETICA. Nótese que por ser una muestra de 8 unidades se ha utilizado para denominar la desviación típica la letra S en lugar de . Ejercicio: Hallar la DESVIACION TIPICA de las alturas de los 100 estudiantes. La MEDIA ARITMETICA calculada en el capítulo anterior fue de 1.74 mts. La siguiente tabla contiene la información para hacer los cálculos: X F Derechos de autor en trámite (X-1.74) (X-1.74)2 f(X-1.74)2 Página 37 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales 05 18 42 27 8 f=100 1.55 1.64 1.73 1.82 1.91 -0.19 -0.10 -0.01 +0.08 +0.17 f X X 2 S n 0.04 0.01 0.00 0.01 0.03 Autor: Edgardo Ojeda Barcos 0.18 0.18 0.00 0.17 0.23 f(X-X)2=0.77 0.77 0.09 100 4.4 Desarrollo de tres fórmulas para el cálculo de la Desviación Típica Las fórmulas vistas en la definición no son prácticas para el cálculo, por lo cual haremos ciertas transformaciones, con la finalidad de que los cálculos sean minimizados. Desarrollo fórmula 1, Método Largo El primer desarrollo es simplemente otra forma de escribir la misma fórmula de la definición: Derechos de autor en trámite Página 38 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales 2 f (X X ) 2 N f (X X ) 2 elevando al cuadrado N f X fX 2 2XX X 2 N fX 2 N 2 N Autor: Edgardo Ojeda Barcos 2XX X 2 fX N 2 2X fX N fX N fX 2 N 2 Sacando ahora la raiz cuadrada obtenemos la fórmula 1 fX 2 = N fX N 2 Aplicaremos ésta fórmula a nuestro ejercicio de comparación de métodos: Marca clase 1.55 1.64 1.73 1.86 1.95 de f 05 18 42 27 08 f=100 S X2 fX2 2.40 2.69 2.99 3.31 3.65 12.01 48.41 125.7 89.43 29.18 fX2=304.75 304.75 2 17435 . 0.09 100 Desarrollo Fórmula 2, Método Corto. Volvemos a utilizar los mismos conceptos desarrollados para el mismo cálculo en la MEDIA ARITMÉTICA. Siendo A la media conjeturada y d la desviación de Xj respecto de A, será: d=X-A por lo tanto X = A+d Este resultado se reemplaza en la fórmula: Derechos de autor en trámite Página 39 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales X Autor: Edgardo Ojeda Barcos X A d A d A d N N N N entonces : X X A d A d d d y reemplazando : f X - X f d d 2 σ= 2 N N Ahora bien, con ésta segunda fórmula podemos hacer el mismo desarrollo que hicimos con la primera y el resultado será el mismo, por lo tanto la fórmula 2 es f d 2 σ N f d N 2 Apliquemos ahora esta fórmula al ejercicio de las alturas de los alumnos: X 1.55 1.64 1.73 ==> A 1.82 1.91 f 05 18 42 27 08 f=100 fd 2 S n d=X-A -0.18 -0.09 +0.00 +0.09 +0.18 fd -0.90 -1.62 +0.00 +2.43 +1.44 fd = 1.35 fd2 0.16 0.15 0.00 0.22 0.26 fd2 = 0.79 2 fd 0.79 1.35 0.09 100 100 n 2 Desarrollo Fórmula 3, Método de Compilación: En el cuadro de desarrollo de la fórmula 2, podemos observar en la columna del medio, que la columna de 5 números tienen un factor común que es 0.09 pues: -0.18 = -2 * 0.09, -0.9 = -1 * 0.09, +0.00 = 0.0 * 0.09, +0.09 = +1 * 0.09, +0.18 =+2 * 0.09 Este valor 0.09 es precisamente el ancho de clase = c por lo tanto la variable d la podemos reemplazar por otra variable llamada u : Derechos de autor en trámite Página 40 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos d=c*u Esta variable u toma los valores : ...-2, -1, 0, +1 , +2, ... etc. Si reemplazamos d en las fórmulas anteriores f d 2 σ N 2 f d N f cu 2 N f cu N 2 f u 2 c* N f u N 2 Por lo tanto la fórmula final será: f u 2 σ c* N f u N 2 Esta última fórmula es la llamada FÓRMULA DE COMPILACIÓN Aplicaremos esta fórmula al ejercicio de las alturas de los estudiantes: X 1.55 1.64 1.73 1.82 1.91 f 05 18 42 27 08 f = 100 u -2 -1 +0 +1 +2 fu -10.00 -18.00 +00.00 +27.00 +16.00 fu = 15 fu2 20.00 18.00 00.00 27.00 32.00 fu2 = 97 Apliquemos estos resultados a la fórmula 3: f u 2 SC* n Derechos de autor en trámite f u n 2 2 0.09 * 97 15 0.09 100 100 Página 41 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 4.5 Propiedades de la Desviación Típica Propiedad nº 1 La desviación típica puede generalizarse como: f X a 2 σ N Donde a es un promedio distinto de la MEDIA ARITMÉTICA. De tales desviaciones típicas, la mínima es aquella donde a = MEDIA ARITMÉTICA Propiedad nº 2 Es la más importante de las propiedades de la desviación típica. Para distribuciones normales, es decir, perfectamente simétricas, resulta que entre los extremos de la distribución: MEDIA ARITMÉTICA CURVA NORMAL. 1 = CONTIENE EL 68.27 % DEL AREA BAJO LA MEDIA ARITMÉTICA CURVA NORMAL. 2 = CONTIENE EL 95.45 % DEL AREA BAJO LA MEDIA ARITMÉTICA CURVA NORMAL. 3 = CONTIENE EL 99.73 % DEL AREA BAJO LA Geométricamente, en una distribución normal, la distancia entre el punto de inflexión de la curva, y la perpendicular al eje de las absisas, en el valor correspondiente a la Media Aritmética, es la DESVIACIÓN TÍPICA de dicha población. Mas adelante, cuando se estudie la distribución gaussiana se insistirá en este concepto. Derechos de autor en trámite Página 42 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 4.6 Varianza La VARIANZA es otro medidor de la dispersión ligado, en este caso, a la Desviación Típica. La VARIANZA es el cuadrado de la DESVIACIÓN TÍPICA Este medidor de la dispersión es muy importante y se utiliza para ciertos Analisis de Varianza que pertenecen al campo de la Estadística Aplicada. 4.7 La Desviación Media La Desviación Media o desviación promedio, de un conjunto de números X1, X2, ...,Xk es abreviada por MD y se define como : N X j 1 Desviación Media: DM j X N X X N X X Ejemplo: Hallar la Desviación Media del conjunto : 2, 3, 6, 8,11 Media Aritmética: 6 DM 2 6 3 6 6 6 8 6 11 6 5 2.8 Si X1, X2, ...,Xk se repiten con frecuencia f1, f2, ..., fk, Entonces la DM, se puede escribir como: k f X j DM j X j 1 N fX X N X X k Donde: f f N j 1 Derechos de autor en trámite Página 43 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Ejercicio: Hallar la DM del conjunto a) 3, 5, 6, 7, 10, 12, 15, 18. b) 3, 8, 8, 8, 9, 9, 9, 18. Solución: a) La media aritmética es 9.5 DM X X N 34 4.25 8 18 2.25 8 b) La media aritmética es 9.0 DM X X N La DM indica que b) tiene menor dispersión que a) Ejercicio: Hallar la DM de las alturas de los 100 estudiantes de la Universidad XYZ. La Media Aritmética ya calculada era 1.74 Altura = X 1.55 1.64 1.73 1.82 1.91 DM frecuencia 5 18 42 27 8 f=N=100 f X X N X-1.74 0.19 0.10 0.01 0.08 0.17 fX-1.74 0.95 1.80 0.42 2.16 1.36 =6.69 6.69 0.07 100 Recordemos que el valor de la Desviación Típica fue 0.09 Derechos de autor en trámite Página 44 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Como ejercicio adicional determinaremos el porcentaje de estudiantes que miden entre: a) Media aritmética 1DM b) Media aritmética 2DM c) Media aritmética 3DM Solución: en primer lugar recordemos del Capítulo 2: Limite inferior 1.51 1.60 1.69 1.78 1.87 Limite Superior 1.59 1.68 1.77 1.86 1.95 Frontera 1.595 1.685 1.775 1.865 1.955 Marca de clase 1.55 1.64 1.73 1.82 1.91 Ancho de clase : 0.09 50 42 1.67 1.81 Frecuencias 40 27 30 18 20 10 8 5 0 1,55 1,64 1,73 1,685 1,82 1,91 1,775 a) 1.74+ 0.07 = 1.81 y 1.74 - 0.07 = 1.67 Es decir nos interesa saber cuantos alumnos se encuentran dentro del intervalo de 1.67 a 1.81 mts. Este intervalo incluye a todos los integrantes de la tercera clase, los 42, más, (1.67- 1.685) / 0.09 de los de la segunda, más, (1.81- 1.775) / 0.09 de los de la segunda, más, O sea, el número de estudiantes, en el intervalo: Media aritmética 1DM, es : Derechos de autor en trámite Página 45 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 42 + (0.015/0.09)x18 + (0.035/0.09)x 27= 42 + 3 + 10.5 = 55.5 Es decir que entre más 1DM y menos 1DM se encuentran el 55.5 % de los estudiantes. Con el mismo criterio se procederá con el resto de los intervalos: b) Media aritmética 2DM = 1.74 2 x 0.07 Esto es de 1.60 a 1.88, los cálculos serán ahora, los siguientes. 42 y 27 entran todos, más (1.685-1.60) / 0.09 de la segunda, más (1.88 - 1.865) / 0.09 de la quinta clase, o sea: 42 + 27 + (0.015/0.09)x18 + (0.035/0.09)x 8= 42 + 27 + 17 + 1.3 = 87.3 Es decir que entre más 2DM y menos 2DM se encuentran el 87.3 % de los estudiantes. b) Media aritmética 3DM = 1.74 3 x 0.07 Esto es de 1.53 a 1.95, los cálculos serán ahora, los siguientes. (1.595-1.53) / 0.09 de la segunda, más (1.95 - 1.865) / 0.09 de la quinta clase, osea: 42 + 27 + 18 + (0.0722/0.09)x 5 + (0.085/0.09)x 8= 42 + 27 + 18 + 4 + 7.6 = 98.6 Es decir que entre más 3DM y menos 3DM se encuentran el 98.6 % de los estudiantes. 4.8 Ejercicios en clase. Utilizando la distribución de frecuencias del ejercicio de clase que se realizó para el capítulo 3, se deberá calcular: a) b) c) d) el Rango o Intervalo. La Desviación Típica. La Varianza. La Desviación Media. 4.8 Ejercicios de Aplicación. Derechos de autor en trámite Página 46 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos El siguiente listado de ejercicios pertenece al libro Estadística de Murray Spieguel, el alumno deberá resolverlos como parte de su desarrollo académico. Desviación Típica: 4.18, 4.19, 4.40, 4.41. Derechos de autor en trámite Página 47 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Capítulo 5 5 CUANTILOS 5.1 DEFINICIÓN: Los cuantilos son una familia de Estimadores Estadísticos que se utilizan indistintamente tanto para estimar la tendencia central de una distribución como para calcular valores que nos informe acerca de la dispersión que estos presentan y poder compararlos entre distribuciones. Si bien por la importancia de la MEDIANA se la toma fuera de la familia de los cuantilos, en rigor ésta es el primer cuantilo. Es decir, es el valor que, habiendo ordenado la serie de datos, se encuentra exactamente en el medio de la fila. Con el mismo criterio podremos encontrar los valores que dividen serie en 4 partes iguales, es decir, si tenemos una serie de 100 datos, ordenados de menor a mayor, los datos números 25, 50 y 75 dividen la lista en 4 partes iguales. Por ésta razón, estos cuantilos se denominan : CUARTILOS Si la serie no fuera de 100 datos, fuera por ejemplo de 180, los datos buscados serian el 45, el 90 y el 135. Es decir aquel valor que separe el 25%, el 50% y el 75%. Con el mismo criterio, existen los DECILES, que dividen la serie en 10 partes y los PERCENTILES, que dividen la serie en 100 partes iguales. Los QUARTILOS son tres, Q1, Q2 Y Q3 Los DECILES son 9, D1, D2, ... , D9 Los PERCENTILES son 99, P1, P2, ..., P99. Nótese que la MEDIANA es igual a Q2 = D5 = P50 5.2 MEDIDORES DE LA TENDENCIA CENTRAL Una buena propiedad de los cuantiles es que no están afectados por los valores extremos o de borde, los cuales a veces reflejan anomalías o valores que se apartan de la distribución por causas específicas. Los cuantilos utilizan valores que están adentro de la distribución y por lo tanto son valores normales. Para medir la tendencia central comenzamos por definir los estimadores del PROMEDIO o valor central de la distribución: PROMEDIO CUARTÍLICO = (Q3 + Q1)/2 PROMEDIO PERCENTÍLICO, 10 - 90 = (P90+P10)/2 Nótese con mucha atención que estos valores, no tienen por que coincidir con la MEDIANA = Q2 = D5 = P50, esto sucede, únicamente si la distribución es simétrica , solo así, coincidirán todos los estimadores de la tendencia central. Más adelante, al estudiar las distribuciones Gaussianas comprenderemos mejor éste asunto. En general, las distribuciones reales, no son perfectas, por lo tanto, cada uno de los estimadores, darán valores parecidos pero no iguales. El estudioso estadístico, determina, cual de los valores se ajusta mejor a los fines que persigue. Derechos de autor en trámite Página 48 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 5.3 MEDIDORES DE LA DISPERSIÓN Como puede comprenderse, por la cantidad de valores que podríamos seleccionar, sería posible determinar una gran lista de posibles estimadores, los cuatro que se mencionan a continuación son los más comunes. INTERVALO CUARTÍLICO: INTERVALO PERCENTIL 10,90 : INTERVALO SEMI INTERCUARTÍLICO : INTERVALO SEMI PERCENTÍL 10,90 : Q3 - Q1 C90 - C10 (Q3 - Q1)/2 (C90 - C10)/2 En el siguiente ejemplo, se ilustra la utilización de los distintos estimadores. Los siguientes datos, 99 en total están ordenados de menor a mayor : # 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 dato 18 19 19 21 21 21 23 24 25 26 26 29 30 31 31 32 32 33 33 33 # 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 dato 33 33 34 35 35 35 35 35 35 36 36 38 38 39 39 39 39 40 40 41 # 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 dato 42 43 44 45 46 49 50 55 55 56 57 59 60 60 60 65 65 67 67 68 # 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 dato 70 70 71 73 73 74 75 75 76 78 80 83 83 86 89 92 92 93 95 99 # 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 dato 100 102 105 105 106 108 110 111 112 113 115 118 119 120 122 122 123 124 125 En esta tabla, que representa una población de 99 datos, identificaremos primero, cada uno de los valores a ser usados en los cálculos: CUARTILOS: Q1 = 35, Q2 = 56, Q3 = 89 MEDIANA = Q2 = D5 = P50 = 56 PERCENTIL 10 = 26, PERCENTIL 90 = 113 Nótese que el estudio se realizó sobre 99 datos y no sobre 100, pues con 99 se logra la simetría perfecta para cada uno de los cuantilos. Por ejemplo, la Mediana tiene 49 Derechos de autor en trámite Página 49 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales datos a cada lado del dato 50, posteriores, etc. Q1 Autor: Edgardo Ojeda Barcos tiene 24 datos anteriores, y Q3 24 datos 5.4 PROCEDIMIENTOS DE CÁLCULO Estimación de los valores centrales: MEDIA ARITMÉTICA : MEDIANA: PROMEDIO CUARTÍLICO: PROMEDIO PERCENTÍLICO 90,10: X/99: (Q3+Q1)/2: (89+35)/2: (P90+P10)/2 : (113+26)/2: 62 56 62 69.5 Estimación de la dispersión de los valores: DESVIACIÓN TÍPICA: (a partir de la fla. gral. con calculadora): INTERVALO SEMI INTERCUARTÍLICO: (Q3-Q1)/2: (89-35)/2: INTERVALO PERCENTÍLICO 90,10: (P90-P10)/2: (113-26)/2: 32.3 27.0 43.5 Como puede observarse, los resultados son bien diferentes, esto se debe a varios factores, en primer lugar, la distribución de los datos seleccionados, no son simétricos ni se parecen a una distribución Normal o Gaussiana. Si bien aún no hemos estudiado el tema de la distribución NORMAL o Gaussiana, el alumno ya puede formarse una idea de que esta importante distribución es de forma de campana, y tiende a ser simétrica. La distribución que hemos utilizado no lo es, y eso asegura que los distintos estimadores estadísticos difieran entre si. La pregunta es entonces: ¿para que sirven? La respuesta es: para comparar, es decir, podemos comparar sucesivas distribuciones entre sí, y ver si se dispersan más o menos que la anterior y si los valores centrales se acercan a lo que se especifica. ¿Cual usar?, el que a criterio del analista responda mejor a los objetivos que se buscan. Lo importante es que una vez determinado cual será el estadístico a utilizar, seamos coherentes y utilicemos para comparar siempre el mismo estadístico. 5.5 Procedimiento de cálculo para datos agrupados. Cuando la cantidad de datos es grande, y estos se encuentran agrupados en CLASES, el cálculo de los distintos estimadores debe realizarse por el método de la interpolación. Para estudiarlo volveremos a nuestro ejemplo de las alturas de los 100 estudiantes. La tabla de distribución es la siguiente: Fronteras de Límites de Marca de frecuencia Derechos de autor en trámite Ojiva Página 50 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales clase nº 1 clase nº 2 clase nº 3 clase nº 4 clase nº 5 clases 1.505 1.595 1.685 1.775 1.865 clases 1.51-1.59 1.60-1.68 1.69-1.77 1.78-1.86 1.87-1.95 clase 1.55 1.64 1.73 1.82 1.91 Autor: Edgardo Ojeda Barcos de clases 5 18 42 27 8 f=100 05 23 65 92 100 Supongamos que nos interesa buscar el valor de Q1, esto es el valor 25 De acuerdo con la ojiva, el valor 25 se encuentra en la clase nº 3, en esta clase hay 42 datos, pero solo necesitamos 2 para llegar a 25. El razonamiento por interpolación es el siguiente: 42 valores que están en la clase nº 3, producen un cambio en el ordenamiento de dimensión 0.09, es decir el ancho de clase., proporcionalmente, 2, que son los que necesito, produciran,:0.004 Este valor es la alícuota que debe sumarse, ¿a quién? a la frontera de clase: 1.685, por lo cual el valor buscado es 1,689, y aproximando, 1,69. Resultado, Q1 = 1,69 De igual forma., podemos calcular Q3 y con ambos saber cuanto es el intervalo y el promedio INTERCUARTÍLICO. Por último y para dejar el tema completo, calcularemos otro dato, en éste caso, el valor del percentilo 90, es decir P90. De acuerdo a la ojiva, el valor 90, está en la clase 4, el razonamiento, igual al anterior será: 27 datos producen un incremento en las X de 0.09, por lo tanto, 25 serán : (25*0.09)/27=0.083 Este valor lo sumamos a la frontera de clase 1.775, con lo cual obtenemos : 1.858 y aproximando a los valores significativos da 1.86 Resultado P90 = 1.86 Se sugiere al alumno, calcular P10 y con ambos valores calcular el intervalo semi percentílico y el promedio correspondiente. 5.6 Obtención de los valores correspondientes cuando el numero de datos es distinto de 100: Por razones pedagógicas, se ha utilizado una distribución de 100 datos para hacer estos cálculos, pero el alumno debe saber encontrar cualquier dato en una distribución dada. Daremos dos ejemplos: Ejemplo uno: Derechos de autor en trámite Página 51 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Distribución de 80 datos, el valor de Q1 será el dato 20, es decir, 80 * 0.25 el valor de P90 será el 72, es decir 80 * 0.90 Ejemplo dos Distribución de 120 datos, Q1 será el valor 30, (120 * 0.25) el valor de P90, será el 108, ( 120 * 0.90) 5.7 Ejercicios en clase: Utilizando la distribución de frecuencias determinada en clase para el cálculo de la media aritmética y la desviación típica (Capítulos 3 y 4), el alumno deberá calcular la mediana, los tres cuartilos, el promedio y el intervalo semiintercuartílico. Posteriormente se deberá realizar una tabla donde se ingresen todos los medidores de tendencia central y de dispersión para compararlos y discutir sobre ellos. 5.8 Ejercicios de Aplicación. El siguiente listado de ejercicios pertenece al libro Estadística de Murray Spieguel, el alumno deberá resolverlos como parte de su desarrollo académico. Capítulos 3 y 4: Cuantílos: 3.44, 3.107, 3.108, 4.6, 4.7, 4.8, 4.48, 4.52. Derechos de autor en trámite Página 52 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Capítulo 6 6 Teoría elemental de Probabilidades 6.1 Definición de Probabilidad 6.1.1 Definición Clásica: Supongamos que un suceso tiene h posibilidades de ocurrir entre n posibilidades, cada una de las cuales tiene la misma oportunidad de ocurrir que las demás. Entonces, la probabilidad de que ocurra E (éxito), se describe como: p Pr E h n La probabilidad de que no ocurra E, es decir, la probabilidad de Fracaso, se escribe como: q PrnoE n h h 1 1 p 1 PrE pues p + q = 1 n n 6.1.2 Definición como frecuencia relativa: La definición clásica de probabilidad tiene el cuestionamiento de que la palabra “misma oportunidad” aparecen como sinónimas de “equiprobables” lo cual produce un círculo vicioso. Por esta razón, algunos autores defienden una definición estadística de probabilidad. Para ellos, la probabilidad estimada o probabilidad empírica, de un suceso, se define como la frecuencia relativa de ocurrencia del suceso cuando el número de observaciones es muy grande. La probabilidad misma es el límite de esa frecuencia relativa cuando el número de observaciones crece indefinidamente. El siguiente ejemplo servirá para aclarar el concepto: Si en una serie de 1000 tiradas de una moneda salen 529 caras, la frecuencia relativa es de 529/1000 = 0,529. Si en otras 1000 veces, salen 493, la frecuencia relativa acumulada será: (529+493)/2000=0.511. Si continuamos indefinidamente con éste método, el límite será 0,50000..... 6.2 Concepto de Probabilidad. El siguiente gráfico ilustra progresivamente, el concepto de la probabilidad, desde un suceso con imposibilidad absoluta hasta un suceso con certeza absoluta. Derechos de autor en trámite Página 53 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Certeza absoluta 100% 95% 90% 85% 80% 75% 70% 65% 60% 55% 50% 45% 40% 35% 30% 25% 20% 15% 10% 05% 00% 100% Que un hombre muera algún día 83.3% Que salga “no cuatro” al arrojar un dado normal. (5 en 6) 70% No figura en cartas españolas (28 en 40) 50% Cara al arrojar una moneda ( 1 en 2) 32.4% Primera docena en la ruleta (12 en 37) 7.7% K en un mazo de pocker (4 en 52) 0.0% que salga un 7 al arrojar un dado normal. Imposibilidad absoluta Como podemos ver, las probabilidades resultan del cociente: P Casos favorables Total de casos El suceso buscado, puede ser de afirmación o de negación, (“que no salga figura”). La probabilidad se puede expresar como fracción decimal o porcentual: P 12 0.324 37 ó también 32.4% De la definición de probabilidad se deduce que : 0 ó P 1 0 P 100 El alumno, tiene necesariamente que comprender en éste punto, que la expresión de las probabilidades, no puede ser mayor que uno (100%) ni menor que cero(0%) Derechos de autor en trámite Página 54 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 6.3 Regla de la adición de probabilidades Consideremos el siguiente ejemplo: Calcular la probabilidad de que quede el 4 ó el 5 en la cara superior de un dado normal arrojado libremente. Es evidente que si al arrojar un dado sale un cuatro, no podría salir el 5 y viceversa. Es decir, estos sucesos son excluyentes entre sí, son EXCLUYENTES entre si, se eliminan uno a otro. Si ocurre un suceso, no puede ocurrir el otro. Para estos casos, se aplica la regla de la adición de las probabilidades que dice: La probabilidad de que ocurra un suceso compuesto de dos o más sucesos que se excluyen entre si, es igual a la suma de las probabilidades de cada uno de estos sucesos. En todos estos casos el enunciado del problema pide la probabilidad de un suceso compuesto de uno ó de otro. Es decir, 4 ó 5 en nuestro ejemplo. Por esta razón se conoce ésta regla como la REGLA O . Resolviendo nuestro problema tenemos: 1 0.167 6 1 P5 0.167 6 __________ ____ 1 P4 ó 5 0.333 3 P4 Observemos que en estos casos, (sucesos EXCLUYENTES) la probabilidad total es mayor, o a lo sumo igual, que la mayor probabilidad de los sucesos intervinientes, es decir: Pt Pi 6.4 Regla del producto de las probabilidades. Derechos de autor en trámite Página 55 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Se arrojan dos dados normales, uno rojo y otro azul. ¿Cuál es la probabilidad de obtener un 4 en el rojo y 5 en el azul? Observar que esta situación es distinta que la anterior, si sale un 4 en el dado rojo nada impide que salga el 5 en el azul. Estos son acontecimientos NO EXCLUYENTES entre sí, no se eliminan el uno al otro. La regla es del producto y dice: La probabilidad de que ocurra un suceso compuesto de dos o más eventos, que no se excluyen entre si, es igual al producto de las probabilidades que tiene cada uno de esos sucesos. Nuestro problema pide la probabilidad de un suceso compuesto de uno y otro, es decir, 4 y 5 , por esta razón la llamaremos regla y 1 0.167 6 1 P5 0.167 6 __________ _____ 1 1 1 P4 y 5 * 6 6 36 P4 Del ejemplo precedente, se ve que la probabilidad total, en estos casos, esa menor que la menor probabilidad de los sucesos intervinientes. Es decir: Pt Pi El alumno deberá notar que las probabilidades en la segunda regla son menores que en la primera regla, la circunstancia de que la regla de multiplicar, intuitivamente generadora de valores mayores que la suma, se explica por la circunstancia de que la multiplicación se efectúa con números decimales, y esto arroja siempre un valor más pequeño, ejemplo: 0.2 * 0.3 = 0.06 donde 0.06 es, pese a la multiplicación, menor que 0.2 y 0.3. 6.5 Aplicación de ambas reglas Se arrojan dos dados, calcular la probabilidad de que se obtenga un 4 y un 5. Este problema parece el mismo que el anterior pero no es así. el 4 ó el 5 puede salir en cualquiera de los dados. Supongamos que un dado es rojo y el otro azul. Derechos de autor en trámite Página 56 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Podemos obtener 4 en el rojo y 5 en el azul. o bien 5 en el rojo y 4 en el azul. en ambos casos satisfacemos lo que el enunciado pide. Si sale 4 en el rojo (suceso simple), nada impide que salga el 5 en el azul. Entonces corresponde el producto de las probabilidades. Lo mismo ocurre para el 4 en el azul y el 5 en el rojo. Pero, si sale 4 en el rojo y 5 en el azul(suceso compuesto) no puede salir el 5 en el rojo y el 4 en el azul. Por lo tanto corresponde la suma de las probabilidades de cada uno de estos sucesos compuestos. 1 0.167 6 1 P5 0.167 6 1 1 1 P4 y 5 * 0.0278 6 6 36 1 1 1 P5 y 4 * 0.0278 6 6 36 P4 P tot al P 4 y5 P5y4 0.0278 0.0278 0.0556 Veamos otro ejemplo: Se arrojan dos dados normales. Calcular la probabilidad de obtener 9 como suma de las caras superiores. En este caso, el problema se satisface con 4 alternativas: que salga 3 y 6 ó 4 y 5 ó 6 y 3 ó 5 y 4 Ptotal = P3y6 + P4y5 + P6y3 + P5y4 Cada término de la suma vale 1/36= 1/6 * 1/6 Ptotal= 4 * 1/36 = 1/9 6.6 Probabilidades con y sin reposición Cuando un elemento es extraído de una Población, y tenemos que volver a sacar otro elemento, se nos presentan dos posibilidades. La primera es reponer a la Población el primer elemento retirado, con lo cual la Población queda como al principio, es decir que la segunda extracción tendrá la misma probabilidad de extracción que el primero. Derechos de autor en trámite Página 57 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos La segunda alternativa, que es la más frecuente, es que no se reponga la primera unidad extraída, con lo cual la probabilidad para la segunda extracción habrá cambiado. Para aclarar el tema desarrollemos un suceso muy simple, supongamos que tenemos una Población de 10 especimenes, y que tenemos que extraer dos unidades, la probabilidad de la primera extracción es de 1/10=0.1000, ahora bien, la segunda extracción tendrá distinta probabilidad según lo que hagamos con el primer espécimen, si lo volvemos a la población, la probabilidad volverá a ser de 1/10, pero si no lo volvemos, la población es ahora de 9 especimenes, por lo tanto, la probabilidad de la segunda extracción será 1/9= 0.1111 Veamos otro ejemplo, Calcular la probabilidad de hallar una pieza defectuosa y otra buena si se toman dos piezas de un lote de 20 piezas cuya fracción defectuosa es del 5%. Esto quiere decir que 19 piezas son buenas y una es mala. Con reposición: P(buena) = 19/20 = 0.95 P(mala) = 1/20 = 0.05 Por lo tanto la probabilidad de que la primera sea buena y la segunda mala es: 0.95 * 0.05 = 0.0475 Pero, otro resultado posible, y que también satisface el enunciado del problema es que la primera sea mala y la segunda buena, el resultado será el mismo: 0.05 * 0.95 = 0.0475 Y el resultado final será: 0.0475+0.0475 = 0.0950 = 9.5% Sin reposición Los sucesos posibles son, a)buena - defectuosa y b) defectuosa - buena Para a) sin reponer la pieza extraída: 19 1 * 0.05 20 19 1 19 Pb * 0.05 20 19 Pa Ptotal Pa Pb 0.05 0.05 0.10 Derechos de autor en trámite Página 58 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Como se ve ambos resultados son distintos. En la práctica, lo más frecuente es que las extracciones sean sin reposición, pero también sucede que las poblaciones son cantidades grandes, y cuando así sucede, la modificación que se produce en la población por sucesivas extracciones no son significativas para el cálculo de probabilidades. 6.7 Probabilidad de las causas, Fórmula de Bayes - Laplace Probabilidad de las causas Para comprender éste tipo de problemas, recurriremos a la idea de trabajar con urnas. Supongamos 4 urnas A con 7 bolillas blancas y 3 rojas, en cada una, y 6 urnas B con 2 bolillas blancas y 8 rojas en cada una Se escoge una urna al azar y de la misma se extrae una bolilla, también al azar, obteniendo una bolilla blanca, es decir que el suceso b se ha producido. ¿Cuál es la probabilidad de que la urna escogida sea de la familia de urnas A ? Antes de que se sacase una bolilla y se conociera su color, la probabilidad de ser elegida una urna A ó B , estaba perfectamente definida, (1/4 y 1/6), pero el conocimiento de la bolilla extraída, altera esa probabilidad. Como el suceso se ha producido, la probabilidad es a “posteriori”,. es decir, buscamos la probabilidad a “ posteriori “ de la causa A o de la causa B , sabiendo que el suceso b se ha producido. Para resolverlo se aplica la fórmula de Bayes - Laplace P blA Wi pi Wi pi Donde: P blA es la probabilidad a ” posteriori” de la causa A. Wi es la probabilidad a “priori” de la causa A pi es la probabilidad de que actuando la causa A el suceso se verifique. Wi pi es la sumatoria de los productos análogos posibles. Derechos de autor en trámite Página 59 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos De acuerdo a esto tenemos : Wi = 4/10, probabilidad de la urna pi = 7/10 , probabilidad de extraer una blanca en A Por lo tanto la probabilidad de que la urna sea del grupo A , si la bolilla es blanca: PblA 4 7 . Wi pi 28 4 7 10 10 6 2 0.70 Wi pi 10 . 10 10 . 10 40 y también podemos calcular el complementario: PblB 6 2 . Wi pi 12 4 7 10 10 6 2 0.30 Wi pi 10 . 10 10 . 10 40 Como es de esperar la suma de ambos resultados deberá ser necesariamente igual a uno. Ejercicios de comprensión: Los siguientes problemas se les sugieren resolver al alumno. Los resultados están al terminar el enunciado. Problema 1: Se tiene un grupo M formado por 4 urnas, con 4 bolillas rojas y 2 azules cada una. Otro grupo N, formado por 6 urnas conteniendo cada una 3 bolillas rojas y 5 azules. Se selecciona una urna al azar del grupo de diez y de ella se extrae una bolilla, también al azar, resultando roja. ¿Cual es la probabilidad de que la urna seleccionada provenga del grupo N ? Respuesta: 45.80% Problema 2 : Supongamos que una caja contiene bolillas blancas y rojas marcadas con P; Q; ó R como sigue: Derechos de autor en trámite Página 60 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Marcadas con P: 5 blancas y 3 rojas, Marcadas con Q: 4 blancas y 4 rojas, Marcadas con R: 1 blanca y 7 rojas. Se extrae una bolilla al azar y resulta blanca, ¿Cual es la probabilidad de que la bolilla blanca seleccionada esté marcada con la letra P? Cuál con la letra Q? ¿y con la letra R? Respuesta: 50,0%, 40,0% y 10,0% respectivamente. 6.8 Ejercicios de aplicación. El siguiente listado de ejercicios pertenece al libro Estadística de Murray Spieguel, el alumno deberá resolverlos como parte de su desarrollo académico. Capítulo 6: Probabilidades: 6.3, 6.5, 6.6, 6.8, 6.33, 6.42, 6.43, 6.44, 6.45, 6.46, 6.47, 6.50, 6.51, 6.90. Derechos de autor en trámite Página 61 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Capítulo 7 7. Análisis Combinatorio y Probabilidades 7.1 Principio fundamental del análisis combinatorio. El análisis combinatorio nos provee una herramienta muy importante para el cálculo de probabilidades complejas y que no podríamos valorizar con los métodos que hemos aprendido hasta ahora. Este cálculo matemático se unirá a lo visto en el capítulo anterior para desarrollar lo que llamaremos distribución binomial en el próximo capítulo El principio fundamental dice: Si un suceso puede ocurrir de n1 maneras y si cuando éste ha ocurrido, otro suceso puede ocurrir de n2 maneras, entonces el número de maneras en que ambos pueden ocurrir en el orden especificado es: n1 * n2 Ejemplo: Si hay 3 candidatos para gobernador y 5 para alcalde, los dos cargos se pueden ocupar de 3 * 5 = 15 formas. 7.2 Factorial de n. La factorial de n, denotada por n! se define como: n! : n(n-1)(n-2)....3*2*1 . Ejemplos: 5! = 5*4*3*2*1 = 120 4!*5! = 4*3*2*1*5*4*3*2*1 = 2880 Y se define: Factorial del número cero = uno 0! = 1 7.3 Permutaciones. Una permutación de n objetos tomados de r en r es una selección ordenada de r objetos de entre n. Derechos de autor en trámite Página 62 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos El número de permutaciones de n objetos tomados de n en n se denota por Pn,r y viene dado por: Pn,r = n(n-1)(n-2)...(n-r+1)= n! / (n-r)! En particular, el número de permutaciones de n objetos tomados de n en n Pn,n = n! Ejemplo, el número de permutaciones que se pueden dar de las letras a, b, y c, tomadas de a dos son: P(3,2) = 3*2 = 6 Son ab, ac, ba, ca, bc, y cb 7.4 Combinaciones. Una combinación de n objetos tomados de r en r es una selección de r de ellos, sin importar el orden de los r escogidos. El número de combinaciones de n objetos tomados de r en r se denota por: n n(n 1)(n 2)...(n r 1) n! r! r !(n r )! r Otra forma de denotar al numero Combinatorio es: Cn,r Ejemplo: El número de combinaciones de las letras a, b, y c, tomadas de dos en dos es: 3 3.2.1 3 2.1 2 Son ab, bc y ac Nótese que ab y ba son la misma combinación pero no la misma permutación. 7.5 Probabilidades y análisis combinatorio. Para interpretar el tema lo haremos a través de un ejercicio. Una caja contiene 8 bolas rojas, 3 blancas y 9 azules. Derechos de autor en trámite Página 63 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Si se sacan 3 bolas al azar, determinar la probabilidad de que: a) las 3 sean rojas b) las 3 sean blancas c) 2 rojas y una blanca d) al menos una sea blanca e) una de cada color En primer lugar debemos destacar que esto problemas se resuelven siempre sobre la base de que la extracción se realiza sin reposición. a) las 3 sean rojas De acuerdo con el anterior razonamiento, esto se resuelve así: 8 7 6 14 Pr1,r2 ,r3 0.0491, 4.91% . . 20 19 18 285 Ahora bien, si razonamos de acuerdo a los números combinatorios, tenemos: 8 3 numero de selecciones de 3 entre 8 14 Pr1,r2 ,r3 0.0491, 4.91% numero de selecciones de 3 entre 20 20 285 3 Con el mismo criterio resolveremos los otros casos. b) Que las tres sean blancas: 3 3 1 0.00088, 20 1140 3 0.088% c) Que dos sean rojas y una blanca: 8 3 2 1 7 P2 son rojas y 1blanca 0.0737, 7.37% 95 20 3 d) Para resolver este caso, que al menos una sea blanca, tenemos dos caminos, el primero sería calcular la probabilidad de que una sea blanca, de que dos sean blancas y que las tres sean blancas y luego sumar los tres resultados. Pero otro camino, que suele ser más corto, es calcular que ninguna sea blanca y esto restarlo de uno. Nosotros resolveremos por el segundo camino y se sugiere al alumno que lo confirme por la otra vía. Derechos de autor en trámite Página 64 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 17 3 34 Pninguna sea blanca 0.5965, 20 57 3 59.65% por o tanto : Pal menos una blanca 1 34 23 0.4035, 57 57 40.35% e) Una de cada color. Aquí debemos prestar atención de que no están pidiendo que salgan en un orden determinado, El cálculo por la vía del número combinatorio nos da precisamente el resultado acumulado de todas las alternativas posibles. 8 3 9 1 1 1 18 Psacar una de cada color 0.1895, 95 20 3 18.95% 7.6 Generalización del número combinatorio y probabilidades Este importante ejercicio nos introduce en la llamada DISTRIBUCIÓN BINOMIAL. Determinar la probabilidad de sacar tres veces el 6 en 5 tiradas de un dado. Representemos la 5 tiradas por 5 espacios _ _ _ _ _ En cada espacio tendremos los sucesos 6 o no 6 6 Por ejemplo: 6 6 6 6 6 o 6 Derechos de autor en trámite 6 6 6 Página 65 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Ahora bien la probabilidad de un suceso como cualquiera de los dos descritos es: 3 1 1 5 1 5 1 5 P 66666 * * * * 6 6 6 6 6 6 6 2 Cualquiera de las combinaciones nos dará el mismo resultado. Pero la pregunta es: ¿cuántas combinaciones hay? 5 3 la respuesta es 10 de tales sucesos mutuamente EXCLUYENTES por lo tanto la probabilidad requerida es: 3 2 5 1 5 125 P 0.0322, 3888 3 6 6 3.22% Ahora podremos generalizar: 5 es el total de intentos que llamaremos N 1/6 es la probabilidad de éxitos y lo llamaremos p 5/6 es la probabilidad de fracasos y lo llamaremos q por último 3 es la probabilidad llamaremos X, de obtener tantas veces p en N intentos y lo Con ésta generalización la fórmula se puede escribir: N x n x X N X N! p q p q X! N X ! X Fórmulade la distribución binomial 7.7 Ejercicios de Aplicación. El siguiente listado de ejercicios pertenece al libro Estadística de Murray Spieguel, el alumno deberá resolverlos como parte de su desarrollo académico. Derechos de autor en trámite Página 66 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Capítulo 6: Permutaciones: 6.17, 6.18, 6.19, 6.20, 6.21, 6.22, 6.24, 6.66, 6.71, Combinaciones: 6.25, 6.26, 6.27, 6.28, 6.29, 6.30. 6.72, 6.74, 6.75, 6.78. Probabilidades y análisis combinatorio: 6.32, 6.33, 6.34, 6.35. Derechos de autor en trámite Página 67 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Capítulo: 8 LAS DISTRIBUCIONES BINOMIAL, POISSON Y NORMAL. 8.1 LA DISTRIBUCIÓN BINOMIAL Definición: Si p es la probabilidad de que ocurra un suceso en un solo intento (llamada probabilidad de éxito),entonces la probabilidad de que el suceso ocurra exactamente X veces en N intentos ( o sea X éxitos y N-X fracasos viene dado por : N N! PX pX qN X pX qN X X !N X ! X Ejemplo: La probabilidad de obtener exactamente 2 caras en 6 tiradas de una moneda es: N=6, p=½,q=½,X=2 2 6 1 1 2 2 2 6 2 2 4 6! 1 1 15 0.2344, 2!4! 2 2 64 23.44% Se recomienda al alumno que, antes de desarrollar la fórmula, identifique claramente los valores de N, p, q y X, tal como se muestra en éste ejercicio. VARIABLES DISCRETAS Y CONTINUAS Se dice que una variable es discreta, cuando los datos se cuentan, y es continua cuando los datos se miden. por ejemplo, la producción de sillas es discreta pues un lote puede ser, por ejemplo de 25 sillas o de 43 sillas, pero no de 25,6 ó 43,25 sillas pues la fracción no es silla. En cambio, el diámetro de un perno es una variable continua pues la puedo medir con tanta precisión como resolución tenga el instrumento, ejemplo 12,345 milímetros. La distribución de probabilidad binomial se aplica a variables discretas únicamente. DESARROLLO DEL BINOMIO La distribución de probabilidad discreta se llama DISTRIBUCIÓN BINOMIAL porque para: X = 1, 2,..., N corresponde a términos sucesivos de la fórmula binomial o desarrollo del binomio. Derechos de autor en trámite Página 68 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales N Autor: Edgardo Ojeda Barcos N q p N qN 1 qN1p 2 qN 2p 2 ...p N donde: N N 1, , ,... se llaman 1 2 Coeficientes Binomiales ALGUNAS PROPIEDADES DE LA DISTRIBUCIÓN BINOMIAL: VALOR MAS PROBABLE: Np VARIANZA : Npq DESVIACION TIPICA = Npq TRIÁNGULO DE PASCAL El triángulo de Pascal, nos da los valores de cada término del binomio: 1 1 1 1 1 1 2 3 4 1 3 6 1 4 1 1 5 10 10 5 1 .................................................... Si observamos el desarrollo del binomio de Newton, vemos que cada sumando representa una probabilidad y, si N, p y q son constantes, cada término nos da la probabilidad para X = 0, 1, 2, ... hasta N. Por esta razón se lo denomina también DISTRIBUCIÓN BINOMIAL Si generalizamos tenemos: q pN P0 P1 P2 ...PN Por otra parte, q+p = 1 por lo cual la suma anterior también es igual a uno. Derechos de autor en trámite Página 69 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos En otra palabras, la probabilidad de que el suceso esperado se cumpla cero vez, una vez, dos veces, hasta N veces, es igual a uno. Si graficamos en un sistema de coordenadas un polígono de frecuencias, que represente la distribución binomial, tenemos: P (X) ... ... ... ... P(3) P(2) P(1) P(0) P(0) 0 P(1) | 1 P(2) | | 2 P(3) | | | 3 ... P(Np) Np ... P(n-3) | | | n-3 P(n-2) | | n-2 P(n-1) | n-1 P(n) n Como puede apreciarse de este gráfico, la representación de cada una de las probabilidades para cada n y un determinado p conforman un “peine” donde están todas la posibles probabilidades para cada X. El alumno deberá tener presente los siguientes aspectos: a) la suma de todas las probabilidades del “peine” tiene que dar 1 b) recordar siempre que p+q = 1, por lo tanto, aunque solo se especifique p, el valor de q esta automáticamente fijado pues, q = 1 - p EJERCICIOS DE COMPRENSIÓN Para terminar de comprender esto a fondo veremos una familia de distribuciones binomiales en los siguientes gráficos, las probabilidades evolucionan con los valores de p. El valor de N = 10 se mantendrá fijo en los siguientes gráficos: p = variará desde 0,10 hasta 0,90 y, en consecuencia, q = variará desde 0,90 hasta 0,10 X = serán todas las posibles, es decir: 0, 1, 2, ...., hasta 10 La suma de todos los valores de P de cada gráfico totaliza 1 Como puede observarse, las barras comienzan recostadas sobre la izquierda y se desplazan, simétricamente hacia la derecha. Derechos de autor en trámite Página 70 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos si p es igual a 0,10 45 40 probabilidad 35 30 25 20 15 10 5 0 0 2 4 6 8 valor de las X 10 s i p e s ig u a l a 0 ,2 0 35 probabilidad 30 25 20 15 10 5 0 0 2 4 6 v a lo r d e la s X 8 10 s i p e s ig u a l a 0 ,3 0 30 probabilida d 25 20 15 10 5 0 0 Derechos de autor en trámite 2 4 6 v a lo r d e la s X 8 10 Página 71 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos s i p e s ig u a l a 0 ,4 0 30 probabilidad 25 20 15 10 5 0 0 2 4 6 v a lo r d e la s X 8 25 10 s i p e s ig u a l a 0 ,5 0 probabilida d 20 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 Ú N IC O G R Á F IC O D O N D E E X IS T E S IM E T R IA PUES p = q s i p e s ig u a l a 0 ,6 0 30 probabilidad 25 20 15 10 5 0 0 Derechos de autor en trámite 2 4 6 v a lo r d e la s X 8 10 Página 72 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos s i p e s ig u a l a 0 ,7 0 30 probabilida d 25 20 15 10 5 0 0 2 4 6 v a lo r d e la s X 8 10 s i p e s ig u a l a 0 ,8 0 35 probabilidad 30 25 20 15 10 5 0 0 2 4 6 v a lo r d e la s X 8 10 s i p e s ig u a l a 0 ,9 0 40 probabilidad 35 30 25 20 15 10 5 0 0 Derechos de autor en trámite 2 4 6 v a lo r d e la s X 8 10 Página 73 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Todos estos gráficos constituyen una familia de distribuciones binomiales, en función de N constante, en este caso igual a 10 intentos, por lo tanto, las veces que podremos tener éxito van de cero a 10, estas son las X. Las probabilidades de éxito se han variado de 0,10 a 0,90 lo cual dio origen a la familia de las DISTRIBUCIONES BINOMIALES. 8.2 DISTRIBUCIÓN DE POISSON La ley binomial resulta muy laboriosa para el caso de la resolución de la mayoría de los casos de Control de Calidad, por ello, una buena aproximación es la ley de POISSON, donde se deberá tener en cuenta algunos supuestos para que la aproximación sea aceptable. Estos supuestos son: N deberá tender a valores muy grandes. p deberá tender a valores muy pequeños el producto Np deberá permanecer constante Estas condiciones, son las más frecuentes en asuntos de Control de Calidad, en efecto, la muestras, N son siempre grandes, valores cercanos a 100 y superiores casi siempre a 50. La fracción defectuosa, p, casi siempre es menor al 5% por lo cual la aproximación resulta siempre muy satisfactoria. Con estos supuestos la fórmula BINOMIAL : N P X p X qN X X se reduce a: Xe P X x! donde X = 0, 1, 2,... y es una constante dada = Np otra forma de escribirla sera P X X Np e Np X! Siendo ambas fórmulas llamadas de POISSON Derechos de autor en trámite Página 74 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 8.3 RELACIÓN ENTRE LA DISTRIBUCIÓN BINOMIAL Y LA DISTRIBUCIÓN DE POISSON: En la distribución binomial, si N es muy grande y la probabilidad p de ocurrencia de un suceso es muy pequeña, de modo que q = 1 - p es casi 1 se lo denomina un suceso raro. En la práctica, un suceso es raro si el número de ensayos es al menos 50 (N 50), mientras que Np es menor que 5. En tal caso la distribución binomial queda aproximada muy estrechamente por la DISTRIBUCIÓN de POISSON. La siguiente tabla muestra las diferencias entre ambas distribuciones: MEDIA VARIANZA DESVIACIÓN TÍPICA BINOMIAL = Np 2 = Npq = Npq POISSON = 2 = = Ejercicio de comprensión: Entre las 2 y las 4 de la madrugada, el número medio de llamadas telefónicas por minuto que recibe una pequeña central telefónica es de 2,5. Hallar la probabilidad de que durante un minuto concreto se produzcan: a) cero llamadas b) una llamada c) dos llamadas d) tres llamadas e) cuatro llamadas o menos f) más de seis llamadas Derechos de autor en trámite Página 75 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos a) P(0) 2.50 e 2.5 1 1 2.5 0.0821, 0! 12.18 e b) P(1) = 2.51 e 2.5 2.5 0.2052, 1! 12.18 20.52% c) P(2) = 2.52 e 2.5 6.25 0.2565, 2! 24.37 25.65% d) P(3) = 2.53 e 2.5 15.63 0.2138, 3! 73.10 21.38% e) P(4) = 2.54 e 2.5 39.06 0.1336, 4! 292.38 8.21% 13.36% P(4 ó menos) = 8.21% + 20.52% + 25.65% + 21.38% + 13.36% = 89.12% f )P(más de 6), necesitamos, P(5) y P(6) P(5) = 2.55 e 2.5 97.66 0.0668, 5! 1461.90 6.68% P(6) = 2.56 e 2.5 244.14 0.0278, 6! 8771.40 2.78% P(más de 6) = 100% - (89.11% + 6.68% + 2.78%) = 1.43% 8.4 LA DISTRIBUCIÓN NORMAL, CURVA NORMAL O DISTRIBUCIÓN GAUSSIANA Uno de los más importantes ejemplos de una distribución de probabilidad continua es la DISTRIBUCIÓN NORMAL, también conocida como CURVA NORMAL ó DISTRIBUCIÓN GAUSSIANA. Está definida por la ecuación: Y 1 σ 2π 21 ( X μ e σ Donde: µ= media aritmética de la población y = desviación típica de la población. El área total bajo la curva es igual a uno, (o 100%), significa que el 100% de las probabilidades están representadas por la curva. Consecuentemente, el área bajo la Derechos de autor en trámite Página 76 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos curva entre X=a y X=b con a < b representa la probabilidad de que X esté entre a y b . Esta probabilidad se denota por: Pr{ a < X < b } VARIABLE CANÓNICA : Z Esta importante variable Z , se utiliza para transformar la anterior fórmula de Gauss. La expresión, denominada Unidades Estandard, se define: Z X Estas unidades Estandard o unidades de Desviación Típica, ( pues está dividido por sigma ) transforma a la ecuación de Gauss en la siguiente: Y 1 21 Z 2 e 2 Como se demostrará más adelante, en esta expresión el valor de sigma es igual a uno, motivo por el cual, desaparece del denominador. Esta fórmula, que es única, igual para cualquier población, con tal de que calculemos el valor de Z, tiene la siguiente representación: CURVA NORM AL DE GAUSS 40 PR OBA BILID ADES 35 30 25 20 15 10 5 0 -3 -2 -1 0 1 VALO R ES D E Z 2 3 Esta “campana” tiene características peculiares: a) la media aritmética es igual a cero. Derechos de autor en trámite Página 77 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos b) el punto de intersección de la perpendicular a la absisa en el valor 1 y -1 con la curva marca un punto en dicha curva, dicho punto es el punto de inflexión de la curva, es decir, donde la tangente cambia de signo. c) la distancia del punto de inflexión a la perpendicular a la absisas en el valor de X = 0 es el valor de la desviación típica y vale uno. d) el área dentro de ciertos valores es siempre el mismo según el siguiente esquema: Área bajo la curva normal desde MENOS UNA DESVIACIÓN TÍPICA (-1) hasta MAS UNA DESVIACIÓN TÍPICA (+1) AR EA BAJO LA C UR VA NO R M AL IG U A L A 6 8 .2 7 % 40 PR OBA BILIDAD ES 35 30 25 20 15 10 5 0 -3 -2 -1 0 1 2 3 D E S D E -1 A + 1 D E S V IA C IO N T IP IC A AR EA BAJO LA C UR VA NO R M AL IG U A L A 9 5 ,4 5 % 40 PR OBAB ILID ADES 35 30 25 20 15 10 5 0 -3 -2 -1 0 1 2 3 D E S D E -2 A + 2 D E S V IA C IO N T IP IC A Derechos de autor en trámite Página 78 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos AR EA BAJO LA C UR VA NO R M AL IG U A L A 9 9 ,7 3 % 40 PR OBA BILIDAD ES 35 30 25 20 15 10 5 0 -3 -2 -1 0 1 2 3 D E S D E -3 A + 3 D E S V IA C IO N T IP IC A 8.5 RELACION ENTRE LA DISTRIBUCIÓN BINOMIAL y la NORMAL Si N es grande y si ni p ni q son próximos a cero, las dos distribuciones se aproximan estrechamente por una distribución normal con variable canónica dada por: Z X Np Npq En el capítulo 8.8, se estudiará la aproximación de la curva normal a los resultados por la fórmula Binomial. 8.6 EJERCICIOS DE COMPRENSION SOBRE LA DISTRIBUCIÓN NORMAL. Los siguientes ejercicios, tienen como objetivo aprender el uso de las tablas de Gauss. EJERCICIO Nº 1 Hallar el área bajo la CURVA NORMAL en cada uno de los casos siguientes: a) entre z = 0 y z = 1.20 Derechos de autor en trámite Página 79 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos CURVA NORMAL DE GAUSS 45 PROBABILIDADES 40 35 30 25 20 15 10 5 0 0 1 2 3 -3 -2 -1 Area bajo la curva entre z = 0 y z = 1,2 De tablas leemos que para z = 1,2 es 0,3849, por lo tanto: Pr {0 z 1,2} = 0,3849 Esto significa que el área bajo la curva normal para z entre 0 y 1,2 es del 38.49% b) Entre z = - 0.68 y z = 0 CURVA NORMAL DE GAUSS 45 PROBABILIDADES 40 35 30 25 20 15 10 5 0 -3 -2 -1 0 1 2 3 Area bajo la curva entre z = -0,68 y z = 0 En tablas se lee para z = 0.68 es 0.2518 por lo tanto, Pr {-0,68 z 0} =0.2518 Esto significa que el área bajo la curva, para z= -0,68 y z=0 es el 25.18% c) Entre z = - 0.46 y z 2.21 Derechos de autor en trámite Página 80 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos CURVA NORMAL DE GAUSS 45 PROBABILIDADES 40 35 30 25 20 15 10 5 0 -3 -2 -1 0 1 2 3 Area bajo la curva entre z = -0,46 y z = 2,21 En tablas se lee que, para z = 0.46 es 0.1772 por lo tanto, Pr {-0,46 z 0} =0.1772 7Nótese que en la lectura se prescindió del signo menos. Por otra parte, para z = 2.21 se lee 0.4864. lo cual significa : Pr {0 z 2.21} =0.4864 Para encontrar el área total debemos sumar ambos resultados: 0.1772+0.4864 = 0.6636 Esto significa que el área bajo la curva, para z= - 0.46 y z=2.21 es del 66.36% d) Entre z = 0.81 y z = 1.94 CURVA NORMAL DE GAUSS 35 PROBABILIDADES 30 25 20 15 10 5 0 -3 -2 -1 0 1 2 3 Area bajo la curva entre z = 0,81 y z = 1,94 Para z = 0.81 es 0.2910 por lo tanto, Pr {0.81 z 0} =0.2910 Para z = 1.94 es 0.4738 esto es : Pr {0 z 1.94} =0.4738 Para encontrar el área entre los dos puntos elegidos, debemos restar ambos resultados: 0.4738 - 0.2910 = 0.1828 Esto significa que el área bajo la curva, para z= 0.81 y z=1.94 es del 18.28% e) A la izquierda de z = - 0.6, esto significa, entre z = - y z = - 0.6 Derechos de autor en trámite Página 81 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Tener presente que desde z = - y z = 0 la superficie bajo el área es 0.5000 (50%) CURVA NORMAL DE GAUSS 35 PROBABILIDADES 30 25 20 15 10 5 0 -3 0 1 -2 -1 Area bajo la curva entre z = - infinito 2 3 y z = - 0,6 Para z = 0.6 es 0.2258 por lo tanto, Pr {0.6 z 0} =0.2258 Para z = - es 0.5000, esto es : Pr { - z 0} =0.5000 Para encontrar el área entre los dos puntos elegidos, debemos restar ambos resultados: 0.5000 - 0.2258 = 0.2742 Esto significa que el área bajo la curva, para z = - y z=- 0.6 es del 27.42% f) A la derecha de z - 1.28, esto es ,entre z = - 1.28 y z = + CURVA NORM AL DE GAUSS 40 PR OBA BILIDAD ES 35 30 25 20 15 10 5 0 -3 -2 -1 0 1 2 3 A r e a e n tr e z = -1 ,2 8 y z = + in fin ito Para z = 1.28 es 0.3997 por lo tanto, Pr {-1.28 z 0} = 0.3997 Para z = 0 y z= + es 0.5000, esto es : Pr {0 z +} = 0.5000 Para encontrar el área entre los dos puntos elegidos, debemos sumar ambos resultados: 0.3997+0.5000 = 0.8997 Esto significa que el área bajo la curva, para z = -1.28 y z =+ es del 89.97% g) A la derecha de z = 2.05, y a la izquierda de z = - 1.44 Derechos de autor en trámite Página 82 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos CURVA NORMAL DE GAUSS 16 PROBABILIDADES 14 12 10 8 6 4 2 0 -3 -2 -1 0 1 2 3 A la izquierda de -1,44 y a la derecha de 2,05 Área total bajo la curva = 1-(área entre-1.44 y 0) - (área entre 0 y 2.05) 1 - 0.4251 - 0.4798 = 0.0951, esto es 9.51% EJERCICIO Nº 2 Este ejercicio ayuda a entender el uso de los procedimientos anteriores para el cálculo de las probabilidades en eventos reales. Se recomienda al alumno dibujar las “campanas” e ir identificando las áreas escogidas. Si los diámetros de las bolillas de cojinetes están normalmente distribuidas con media 0.6140 mm y desviación típica 0.0025 mm determinar el % con diámetro: a) entre 0.6100 y 0.6180 mm b) mayores que 0.6170 mm c) menores que 0.6080 mm Solución: a)- z = (0.6100-0.6140) / 0.0025 = - 1.60 + z = (0.6180-0.6140) / 0.0025 = + 1.60 Área solicitada = probabilidad buscada = 0.4452 + 0.4452 = 0.8904 La probabilidad de que el diámetro de las bolillas se encuentren entre 0.6100mm y 0.6180 mm es del 89.04% b) z = (0.6170 - 0.6140) / 0.0025 = 1.20 Area para z = 0.3849 Area solicitada: 0.5000 – 0.3849 = 0.1151 Derechos de autor en trámite Página 83 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos La probabilidad de que el diámetro de las bolillas sea mayor que 0.6170 mm es del 11.51% c) z= (0.6080 - 0.6140) / 0.0025 = 2.40 Para z = 2.40, es 0.4918 El área buscada es 0.5000 - 0.4918 = 0.0082 Probabilidad = 0.82 % Ejercicios en clase: Se desarrollan ejercicios inversos, dado un área, determinar z. Ejemplo 1: determinar la nota mínima para el 10% mejor de un curso con media 65 y desviación típica 9. Ejemplo 2: Calcular a las cuantas horas deberán cambiarse las ampolletas de una ciudad, si la vida media es 750 horas y la desviación típica es 35 horas, y se desea hacerlo cuando falle el 20% de las ampolletas. 8.7 LA DISTRIBUCION HIPERGEOMETRICA. Esta distribución es Discreta, es una alternativa junto a la Distribución Binomial y la Distribución de Poisson. Veamos en que caso nos interesa esta distribución Discreta. Cuando la magnitud de la muestra es grande, por lo general, del 20% de la cuantía del lote (Población), la ley Binomial no puede dar una aproximación satisfactoria de esta distribución. Teóricamente, la fórmula Hipergeométrica es la distribución finita correcta. Es decir, la fórmula Binomial nos entrega buenos resultados cuando n es pequeña en relación a N, pero si no lo es debemos acudir a la relación Hipergeométrica. En los casos donde el tamaño de la muestra es significativa frente al tamaño de la Población, sucede que cada vez que se extrae una unidad del lote , cambia el valor de p del resto del lote. Supongamos que se extrae una muestra de 5, de un lote de 20 unidades, que tiene 2 unidades defectuosas, esto es p’ = 0,10, la magnitud de la muestra es de 25% del lote. La fórmula de la Distribución Hipergeométrica es la siguiente: Derechos de autor en trámite Página 84 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos L d d c n c c P L n n L = Tamaño del Lote (Población) d = Unidades defectuosas en el Lote n = tamaño de la muestra. c = Unidades defectuosas en la muestra. Esta fórmula se interpreta así la probabilidad de que una muestra al azar, de n unidades , contenga c unidades defectuosas, para un tamaño de lote (Población) L en el cual existen d unidades defectuosas. Nos preguntamos la probabilidad para c= 0, 1 y 2, los resultados serán: Para c = 0 20 2 2 0 5 0 0 P 0.553 20 5 5 Para c = 1 20 2 2 1 5 1 1 P 0.395 20 5 5 Para c = 2 20 2 2 2 5 2 2 P 0.053 20 5 5 Derechos de autor en trámite Página 85 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos En la siguiente figura, se ha graficado los tres resultados obtenidos, y también se muestra los resultados para el mismo caso, resueltos con la fórmula Binomial, y por Poisson. Naturalmente, el cálculo Hipergeométrico, muestra valores solo para c= 0, 1 y 2, ya que el número máximo de defectos posibles en la muestra de 5 es 2. Derechos de autor en trámite Página 86 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Tanto el método Binomial como el de Poisson suponen magnitudes de lotes infinitas, y cuando se llevan a los límites de la expansión, producen valores de probabilidad para defectos 3, 4 y 5 de la muestra. Esto no tiene sentido en este ejemplo ya que no existen. 0,800 0,600 0,400 0,200 0,000 0 1 2 3 4 5 Hipergeométrica 0,553 0,395 0,053 0,000 0,000 0,000 Binomial 0,591 0,328 0,073 0,008 0,000 0,000 Poisson 0,607 0,303 0,092 0,006 0,000 0,000 Téngase presente que de los tres resultados, los únicos correctos son los de la Hipergeométrica, y en los otros datos puede apreciarse el grado de error con los resultados correctos. Problema: En una editorial, en la producción de un determinado tipo de libro, se espera una probabilidad de 0.10 de encontrar un error en una hoja de los mismos. Para la impresión de un libro de 70 hojas deseamos conocer, al revisar 3 hojas al azar, que probabilidad existe de encontrar ninguna hoja con error. Solución: L = 70 d=7 n=3 c=0 p = 0,10 70 7 7 0 3 0 0 P 0.7254 70 3 3 Respuesta: 72.54 % Derechos de autor en trámite Página 87 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 8.8 APROXIMACION NORMAL A BINOMIAL La aproximación normal a Binomial es sencilla, siempre que ejemplo: n no sea grande, Para: n = 12 y p = 1/3 La familia binomial tiene las siguientes probabilidades: P(0)=0.008 P(1)=0.046 P(2)=0.127 P(3)=0.212 P(4)=0.238 P(5)=0.191 P(6)=0.111 P(7)=0.048 P(8) =0.015 P(9) =0.003 P(10)=0.000 P(11)=0.000 P(12) = 0.000 Conceptualmente, la gráfica para una distribución Binomial, deberá representarse, como se vio anteriormente como una “peineta”, es decir, líneas verticales desde el valor encontrado a la abscisa, pues entremedio no existen valores. Sin embargo, para los fines comparativos con la normal, recurriremos a un histograma. Es decir, las barras indicarán los valores obtenidos con la fórmula Binomial, pero nos dará también una idea de superficie, de manera que podamos acercarnos, visualmente, a la curva normal. 0,238 0,212 0,191 0,127 0,111 0,046 0,008 0,048 0,015 0,0030 0 2 4 6 8 10 12 Distribución binomial para p=1/3 y n=12 En 8.1, definimos que, para la distribución Binomial es: Derechos de autor en trámite Página 88 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Valor mas probable: X : np : 12 4 DesviaciónTípica : σ npq 12 1.63 La curva normal, superpuesta, tiene los datos calculados con la fórmula anterior: resulta evidente que existe una buena aproximación, pese a que n es solo 12. 0 2 4 6 8 10 12 Distribución binomial para p=1/3 y n=12, con curva normal superpuesta Para verificar este acercamiento, realicemos los siguientes ejercicios: Si la probabilidad de que un tirador acierte a un blanco es de 1/3, y si dispara 12 tiros, ¿cuál es la probabilidad de que acierte por lo menos 6 de ellos? La respuesta exacta, a tres decimales, es P(6) + P(7) + P(8)+......+ P(12) = 0.177 Geométricamente, esta respuesta, es el área de aquella parte del histograma, a la derecha de x = 5.5 Por lo tanto, al aproximar esta probabilidad por los métodos de la curva normal, se necesita encontrar el área bajo la curva normal, a la derecha de 5.5. Puesto que la curva normal, fue construida con = 4 y = 1.63 se sigue que: z x - 5.5 4 0.92 163 . De tablas encontramos que para z=0.92, el área correspondiente es 0.179, y esto es una buena aproximación al 0.177 calculado por la fórmula Binomial. Téngase presente que el valor correcto es el que se calculó por la fórmula Binomial. Derechos de autor en trámite Página 89 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Comprobemos ahora para otro caso. Calcular la probabilidad de que el tirador acierte precisamente 6 tiros en 12. De lo calculado al principio del capítulo, la respuesta correcta, a 3 decimales es 0.111. Por Gauss, la respuesta la da el área bajo la curva normal entre 5.5. y 6.5. z2 6.5 4 1.53 1.63 A 2 0.4370 z1 5.5 4 = 0.92 1.63 A 1 0.3212 Restando una de otra área, el resultado es : 0.116, que, comparada con 0.111 también es una buena aproximación. Si utilizamos la fórmula de 8.1 podremos averiguar z con la siguiente expresión: z x np npq A la expresión np se le llamó valor más probable y es el equivalente de la media aritmética de una distribución continua. Por otra parte, np, representa el número de éxitos más probables, esto es x¸ si dividimos por n tanto x como np nos da la proporción de éxitos, (en Control de Calidad, lo llamaremos fracción defectuosa), de tal forma, la fórmula anterior se expresa como sigue: x p z n pq n Es decir que, cuando los datos son entregados en la forma de proporción de éxitos, o fracción defectuosa, la curva normal de aproximación, será la que se obtiene utilizando p y pq n Estas fórmulas serán de utilidad más adelante. Derechos de autor en trámite Página 90 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 8.9 Ejercicios de Aplicación. El siguiente listado de ejercicios pertenece al libro Estadística de Murray Spieguel, el alumno deberá resolverlos como parte de su desarrollo académico Capítulo 7 Distribución Binomial: 7.1, 7.2, 7.3, 7.4, 7.5, 7.6, 7.7, 7.8, 7.9, 7.42, 7.43, 7.40, 7.44. Distribución Normal: 7.14, 7.15, 7.16, 7.17, 7.18, 7.20, 7.21, 7.22, 7.23, 7.49, 7.50, 7.51, 7.52, 7.54, 7.57, 7.58. Aproximación normal a binomial: 7.24, 7.25, 7.26. Distribución de Poisson: 7.27, 7.28, 7.29, 7.67, 7.68, 7.71 Derechos de autor en trámite Página 91 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Capitulo 9 Correlación y Regresión 9.1 Introducción Si mediante procedimientos estadísticos, y basándonos en datos históricos, procedemos a predecir información futura, estamos realizando un ANÁLISIS DE REGRESIÓN. Por ejemplo, con la información de las ventas, estacionarias de los tres últimos años, podemos PREDECIR las ventas futuras para los mismos períodos. Otro caso, de acuerdo con las notas obtenidas por un alumno en la enseñanza básica, podríamos PREDECIR los resultados académicos en la Universidad. En ambos casos estaríamos aplicando técnicas de REGRESIÓN. Rápidamente puede advertir, el alumno, las dificultades del método. En el primer caso, la probabilidad de que la predicción sea buena, depende de que no hallan cambios en el escenario de donde se obtuvieron los datos históricos. Si para este año, tenemos un nuevo competidor en el mercado, todos los datos históricos no serán de la misma utilidad y los resultados serán inciertos. En el segundo caso, es sabido que los estudiantes tienen un marcado cambio en su pasaje de la Básica a la Universidad, las razones son múltiples, distinto grado de adaptación a los nuevos métodos de enseñanza, cambios biológicos importantes, motivaciones distintas, madurez intelectual, etc., Por lo tanto la predicción, en éste caso, hay que tomarla con reservas. Ahora bien, aunque las dificultades existen, el método es matemáticamente muy bueno, y además los cambios del escenario también pueden de alguna manera considerarse, de manera que es una herramienta valiosa para Marketing, la Gestión de Compras, Control de Calidad, etc. Luego de este ANÁLISIS DE REGRESIÓN, nos queda el problema de saber que tan bueno es el ajuste entre las distintas variables, esto significa conocer que tan bueno es el ajuste entre las variables. Es decir, el ANÁLISIS DE CORRELACIÓN, nos dice con que precisión nos están informando la predicción. Por ejemplo, un problema de correlación puede ser, ¿existe relación entre el consumo del tabaco y las muertes por afecciones cardíacas? ¿Entre la recepción de radio y la actividad de las manchas solares? ¿entre la belleza y la inteligencia?. Por ejemplo, la correlación entre el consumo de tabaco y las muertes por afecciones cardíacas es elevada, esto quiere decir que, conociendo el consumo de tabaco, podemos hacer una buena predicción de la probabilidad de muerte temprana por afección cardíaca. 9.2 Análisis de Correlación Con la finalidad de ilustrar la manera en que se procede a estudiar la relación entre dos variables, consideremos los datos de la siguiente Tabla, que consiste en las notas de 30 estudiantes en una prueba de lenguaje y una de ciencias. La nota máxima era de 50 puntos Derechos de autor en trámite Página 92 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales x 34 37 36 32 32 y 37 37 34 34 33 x 28 30 32 41 38 y 30 34 30 37 40 x 39 33 30 33 43 y 36 29 29 40 42 x 35 29 34 35 36 y 35 36 37 39 40 x 33 32 33 37 36 y 31 31 36 40 42 Autor: Edgardo Ojeda Barcos x 34 36 34 38 31 y 32 38 31 40 29 N ota s de c ie ncias La investigación de la relación entre las dos variables comienza, generalmente, con un intento de descubrir la forma aproximada de la relación, trazando los datos como puntos en el plano x,y Esta gráfica recibe el nombre de DIAGRAMA DE DISPERSIÓN. Esto nos da una aproximación visual a la posible relación. 45 43 41 39 37 35 33 31 29 27 25 25 27 29 31 33 35 37 39 41 43 45 N o ta s d e le n g u a je Una simple inspección visual, nos sugiere que existe una razonable relación entre los puntos, la nube sugiere una tendencia a crecer, es decir, a mejores notas en ciencias, mejores notas en lenguaje, y viceversa. Esta “sugerencia” es la CORRELACIÓN, y nuestro interés ahora es medir esa relación entre los valores. Por otra parte, el aspecto general del diagrama de dispersión, es el de una línea recta. Para determinar la naturaleza de una tendencia, se busca cualquier propensión de los puntos de agruparse sobre ambos lados de alguna curva simple o bien a ambos lados de una línea recta. Para estas variables seria conveniente poder medir en alguna forma el grado en que ambas variables se encuentran relacionadas linealmente. Con el objeto de obtener esta medida, considérense las propiedades que seria conveniente que tuviera. Una medida de la relación tendrá que ser independiente de la elección del origen para las variables. Esta propiedad puede obtenerse usando las desviaciones de las variables mismas. Esto es igual a la definición de la Desviación Típica. Así, se usan las variables xi X e yi Y en lugar de las variables xi e yi para formar la medida de relación deseada. La notación xi , yi denota el i-ésimo número de nuestra tabla. También deberá ser independiente de la escala de medidas empleada para x e y. Esta propiedad puede obtenerse dividiendo x entre cantidades que posean las mismas unidades que x e y. Esto se logra dividiendo por la DESVIACIÓN TÍPICA. Esto significa que lo reducimos a UNIDADES ESTANDARD o sea a la variable Z. De esta forma describiremos ahora dos variables ui y vi siendo, Derechos de autor en trámite Página 93 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales ui x X i y x vi Autor: Edgardo Ojeda Barcos y Y i y Con estas variables podemos volver a representar el diagrama de dispersión. Este será ahora un DIAGRAMA DE DISPERSIÓN PARA VALORES NORMALIZADOS. Las coordenadas se cortan en un punto central del diagrama, pero el perfil de la nube de puntos, continua siendo exactamente el mismo 3 2 1 0 -3 -2 -1 -1 0 1 2 3 -2 -3 Se puede ver, que la mayoría de los puntos se encuentran en los cuadrantes 1 y 3. Este comportamiento sugiere una relación entre las variables, una medida simple de esta relación es la siguiente: n uv i i i1 Los términos de la suma correspondiente a los puntos en los cuadrantes 1 y 3 serán siempre positivos mientras que los del cuadrante 2 y 4 serán negativos y restaran a la sumatoria. Consecuentemente un valor positivo elevado tenderá pues a indicar una tendencia lineal pronunciada en el diagrama de dispersión. Esto sin embargo no es estrictamente cierto, ya que si el número de puntos se duplicara sin cambiar la naturaleza de la dispersión, el valor de la suma se casi duplicaría . Es pues, necesario dividir la suma entre n antes de usarla como medida de la relación. Existen razones teóricas para preferir n-1 en lugar de n . El resultado es uv , esto es la medida deseada y se llama COEFICIENTE DE n1 CORRELACIÓN. Este coeficiente se denota con la letra r. Si se reemplaza por las medidas originales la expresión es la siguiente: x n r i 1 i X yi Y n 1sxsy El resultado de esta ecuación es un número que va desde cero a uno, siendo, cero, la inexistencia de correlación, y uno la correlación total. Es decir que r toma valores según la siguiente relación: Derechos de autor en trámite Página 94 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 0 r 1 Si la tendencia del diagrama es a decrecer, es decir si la nube de puntos sugiere que los valores tienden a decrecer, en lugar de crecer como sucede en el ejemplo de las notas que se dio al comenzar este tema, entonces, r toma valores entre 0 y -1, indicando con cero, otra vez, la inexistencia de correlación, y con -1 la absoluta correlación. Nótese, que en realidad, cuando la tendencia de los puntos, es a decrecer, se puede modificar dicha tendencia, mediante un simple cambio de ejes. Por esta razón, el alumno, debe fijar, como concepto que r toma valores entre 0 y 1. Cuando es r = 1, significa que son puntos todos sobre una línea recta. Cuando r = 0 son puntos totalmente dispersos que no guardan entre sí ninguna relación. Si se calcula r para la tabla de los estudiantes nos da como resultado r = 0.66 Este resultado indica que existe correlación, aunque mas bien pobre, es decir, que no necesariamente, los alumnos que tengan buenas notas en lenguaje tienen que tener buenas notas en ciencias y viceversa. Lo mismo ocurre con los alumnos con malas notas. Una buena correlación que nos da oportunidad de pasar al análisis de regresión, es cuando r supera 0.80. Por supuesto, esto es una sugerencia, el analista es el que determina el nivel de riesgo con el cual desea trabajar. La regresión es siempre posible hacerla aunque r sea igual a valores muy bajos cercanos a cero. Lo que sucede, en estos casos, es que las predicciones no se cumplen. CALCULO DE r La fórmula dada para definir a r no siempre es conveniente para fines de cálculo. Se obtiene una forma mejor multiplicando factores, insertando valores para Sx y Sy, empleando algo de álgebra, con los siguientes resultados: r n x Derechos de autor en trámite n xy x y 2 x 2 n y 2 y 2 Página 95 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Esta última fórmula, (de no ser necesarias las medias aritméticas de x e y), tiene la ventaja de que solo se requieren las sumas de: x e y, sus cuadrados y sus productos. 9.3 Análisis de Regresión Como lo sugiere el estudio anterior, la regresión, consiste en reemplazar, la “nube de puntos”, por una recta que mejor se ajuste, mediante la cual, podremos leer datos, en lugares donde la información no existía. es decir, que podremos predecir. Con el objeto de explicar los métodos de Regresión, considérense el problema particular de predecir el rendimiento de pasto, como función de la cantidad de agua de irrigación aplicada. Los datos de la tabla representan la cantidad, en centímetros cúbicos, de agua aplicada y el rendimiento en toneladas de forraje del terreno de una granja experimental. La gráfica de estos datos se ilustra en la figura. 12 5.27 Agua (x) Rendimiento (y) 18 5.68 24 6.25 30 7.21 36 8.02 42 8.71 48 8.42 9 8 7 6 5 12 18 24 30 36 42 48 . En éste gráfico, resulta que x e y están relacionados en forma aproximadamente lineal, para ésta clase de valores de x. Por ello, una línea recta podrá ser aplicada a éste grupo de puntos para PREDECIR los valores de y partiendo de x . El procedimiento para trazar la línea recta, partiendo de los datos, se denomina MÉTODO DE LOS CUADRADOS MÍNIMOS. La recta pasará por los puntos que mejor se ajusten a los datos disponibles, esto es, por los puntos donde las distancias a los datos sean menores. Derechos de autor en trámite Página 96 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Método De Los Cuadrados Mínimos Por todo lo visto en los párrafos anteriores, la predicción se reduce al problema de ajustar una línea recta a un grupo de puntos. Ahora bien, la ecuación de la recta se escribe en la siguiente forma: y = a + bx en donde a y b son los parámetros que determinan la recta. Así pues: y = 2 + 3x e y = 4 - 2x 16 representan: y=2+3x y = 4 -2 x 11 6 1 - 8 - 6 - 4 - 24 0 2 4 6 8 1 0 -9 Puesto que el problema es determinar los valores de los parámetro a y b de manera que la recta coincida satisfactoriamente con un juego de puntos, el problema es esencialmente la estimación de los parámetros a y b de alguna manera eficiente. El método más conocido es el de los MÍNIMOS CUADRADOS. Puesto que la recta deseada se va a usar para objetivos de predicción es razonable el requerir que la recta sea tal que hagan pequeños los errores de predicción. Por error de predicción se entiende la diferencia entre un valor observado de y , con el valor correspondiente de línea recta para y. Por ejemplo, el valor de predicción en el ejemplo visto al comienzo de este tema, para x= 30 es, aproximadamente igual a 7.21 - 7.00 = 0.21 Si se hubiera empleado una recta diferente para la predicción, el error sería otro. Derechos de autor en trámite Página 97 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Lo que se busca es hacer mínimo la suma de los cuadrados de los errores y se determina lo que se conoce como la línea recta mejor ajustada en el sentido de los mínimos cuadrados. Resulta claro que variando a y b de la ecuación de la recta, podremos encontrar la recta que mejor se ajuste a los puntos de la figura vista al comienzo de este capítulo.. Sin embargo, lo necesario es lograrlo mediante un proceso racional sistemático y es aquí donde interviene el principio de los MÍNIMOS CUADRADOS. La deducción de los coeficientes de la recta de regresión está fuera del alcance de nuestro curso, por lo cual solo se las enunciará de la siguiente manera: RECTA DE REGRESIÓN : y = a + bx donde el término constante a y el coeficiente de regresión b se calculan según las siguientes fórmulas: Término constante de la fórmula de regresión: a y b x n Coeficiente de regresión de la fórmula de Regresión: b n xy x y n x 2 x 2 Comentarios acerca del coeficiente de regresión y de la recta de regresión Cuando vimos el coeficiente de regresión dijimos que si la tendencia de la nube de puntos era creciente, r varia de 0 a 1, y que si la tendencia era decreciente r varía de 0 a -1. Ahora podemos especificar mejor este punto, si la pendiente de la recta de regresión es positiva r varia de 0 a 1, y si la pendiente es negativa r varia de 0 a -1. Nota importante: si la recta de regresión resulta paralela al eje de las x, r es NULO. 9.4 Ejercicio de Aplicación. Derechos de autor en trámite Página 98 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos El siguiente ejercicio sirve para realizar todos los cálculos vistos y además utilizar la recta para hacer algunas predicciones. Con la siguiente serie de datos calcular el valor del COEFICIENTE DE CORRELACIÓN, calcular los COEFICIENTES DE LA RECTA DE REGRESIÓN Y PREDECIR en tres puntos fuera de los valores registrados. X 65 63 67 64 68 62 70 66 68 67 69 71 Y 68 66 68 65 69 66 68 65 71 67 68 70 X2 4225 3969 4489 4096 4624 3844 4900 4356 4624 4489 4661 5041 XY 4420 4158 4556 4160 4692 4092 4760 4290 4828 4489 4692 4970 Y2 4624 4356 4624 4225 4761 4356 4624 4225 5041 4489 4624 4900 X=800 y=811 X2=53418 XY=54107 Y2=54849 Calculo del coeficiente de correlación r 12 54.107 800 811 0.7027 2 2 1253.418 800 1254.849 811 Calculo del coeficiente de regresión de la fórmula de regresión: b 12 54.107 800 811 0.4764 12 53.418 800 2 Cálculo del Término constante de la fórmula de regresión: Derechos de autor en trámite Página 99 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales a Autor: Edgardo Ojeda Barcos 811 0.4764800 35.82 12 Diagrama de dispersión y recta de regresión 71 70 69 68 67 66 65 62 64 66 68 70 72 Ecuación de la recta: y = a + bx = 35.82 + 0.48 x Predicción para los valores de x fuera de los datos registrados: VALORES DE X 50 85 90 PREDICCIÓN PARA Y 60 77 79 9.5 Ejercicios de Aplicación. El siguiente listado de ejercicios pertenece al libro Estadística de Murray Spieguel, el alumno deberá resolverlos como parte de su desarrollo académico En este curso solo se ha visto la regresión de y sobre x, por ello, de los problemas sugeridos, el alumno solo deberá resolver según lo visto en clase. Capítulo 13 : 13-8, 13-10, 13-19, 13-20, 14.40, 14.46, 14.47 Derechos de autor en trámite Página 100 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Capítulo 10 10 Teoría del muestreo 10.1 Muestreo aleatorio En todas las discusiones referentes al muestreo y a las distribuciones de frecuencias de muestras siempre se supuso que las muestras se escogían al azar, esto es que el muestreo era aleatorio. En términos de probabilidad, esto implica que la probabilidad de que un cierto miembro cualquiera sea escogido es igual a 1/N donde N es el número total de individuos de que consta la población. 10.2 Distribución de muestreo Matemáticamente, y por la teoría de probabilidades, puede demostrarse que la distribución de X poseerá una distribución normal, si es que X la posee, con el mismo promedio que X, pero con una desviación típica que es 1 veces la n desviación típica de X. (n es el tamaño de una muestra seleccionada de entre N). Estos resultados matemáticos se expresan en la forma de un teorema: TEOREMA UNO: Si X posee una distribución normal cuyo promedio es y cuya desviación es , entonces el promedio de muestra X en una muestra al azar de tamaño n, poseerá también una distribución normal cuya media será y cuya desviación típica será n En base a este teorema consideremos el siguiente problema: Sea X la representación del peso de un individuo seleccionado al azar de una población de varones adultos. Supóngase que X posee una distribución normal teórica cuyo promedio = 68 kg. y = 3 Kg. Lo que se quiere resolver es lo siguiente: si se toma una muestra al azar de tamaño n = 25 para esta población, ¿cual es la probabilidad de que el promedio de la muestra X se encuentre dentro del intervalo 67 - 69 kg.? El teorema señala que la media poseerá una distribución normal con : X = 68 y X 0.6 3 25 n En el siguiente gráfico podemos ver las dos distribuciones, la primera, con trazo delgado, es la distribución de las X, la segunda, con trazo grueso, es la distribución de Derechos de autor en trámite Página 101 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos las medias, en el primer caso, la desviación típica vale 3 Kg. y en el segundo caso, vale 0.6, de acuerdo con los cálculos vistos más arriba. Por otra parte, el tamaño de la muestra que se consulta es, n es igual a 25. Distribución de las medias de muestreo 70 60 Probabilidad 50 40 Distribución de las X 30 Distribución de las m edias 20 10 0 59 62 65 68 71 Kilogram os 74 77 El problema de calcular la probabilidad de que X se encuentre dentro 67 a 69 se resuelve ahora fácilmente utilizando la fórmula : Z1 = (67-68) / 0.6 = - 1.67 y del intervalo Z2 = (69-68) / 0.6 = + 1.67 Según las tablas es 0,4525 + 0,4525 = 0,9050 es decir , la probabilidad de que X se encuentra entre 67 y 69 es del 90,5%. Supongamos ahora que la variable X no posea una distribución Normal. El resultado es que si n es mayor que 25 la distribución de X , parecerá normal independientemente de la distribución de población que se elija para X. TEOREMA DOS: (Llamado del límite central) Si X posee una distribución con promedio y desviación típica , entonces el promedio de muestra X basado en un muestreo al azar de tamaño n, poseerá una distribución normal aproximada con promedio y una desviación típica : , cuya aproximación se hace cada vez n mejor al crecer n Esto es válido para variables continuas ó discretas. Veamos un ejemplo para una variable discreta que puede tomar los valores 1 a 6 con probabilidades según el siguiente gráfico. Distribución No Normal Derechos de autor en trámite Página 102 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 0,25 0,2 0,15 0,1 0,05 0 1 2 3 4 5 6 Esta distribución tiene una media aritmética = 2.75 y una desviación típica igual a 1.48 De esta población, supongamos de 1000 unidades, sacaremos 100 muestras, (con reposición) de 10 unidades cada una, se obtuvo el siguiente resultado real: Clases 1.5 - 1.6 1.7 - 1.8 1.9 - 2.0 2.1 - 2.2 2.3 - 2.4 2.5 - 2.6 2.7 - 2.8 2.9 - 3.0 3.1 - 3.2 3.3 - 3.4 3.5 - 3.6 3.7 - 3.8 X 1.55 1.75 1.95 2.15 2.35 2.55 2.75 2.95 3.15 3.35 3.55 3.75 Tildes / // ///// // ///// ///// ///// ///// ///// ///// ///// ///// ///// ///// ///// //// / // Total /// ///// / ///// //// ///// / //// Frecuencias 1 0 2 7 13 16 19 16 14 9 1 2 100 El histograma para este diagrama de frecuencias es el siguiente: 20 15 10 5 0 1,55 1,75 1,95 2,15 2,35 2,55 2,75 2,95 3,15 3,35 3,55 3,75 Derechos de autor en trámite Página 103 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos De donde se desprende por cálculo, a partir de la distribución de frecuencias obtenida, que X = 2.77 y la desviación típica de la población de muestreo es 0.41 Los valores teóricos son : X 2.75 y x 148 . 0.47 n 10 Por lo tanto vemos que se cumple: a) una muy buena aproximación de los valores teóricos a los prácticos, y b) que el perfil de la distribución de las medias se parece a una normal, pese a que la distribución de las X es lo menos parecido a una normal. 10.3 Muestreo de Poblaciones Pequeñas En todos los cálculos anteriores se ha supuesto que la población era suficientemente grande como para que la extracción de la muestra no afectara los resultados, Pero, si la población es pequeña, esta presunción no es correcta, y debemos corregir de la siguiente manera: Si N indica el tamaño de la población que se muestrea y n denota el tamaño de la muestra que se toma sin reposición, entonces puede demostrarse que la fórmula : X n Se sustituye por la siguiente X N n n N1 Para ver el efecto que el factor de corrección tiene, haremos un ejercicio considerando los tamaños de muestra de población para los cuales: a) n = 5% de N b) n = 10% de N c) n = 20% de N Puesto que rara vez tiene objeto tomar muestras de poblaciones menores de 100, y puesto que N - 1 diferirá de N por menos del 1%, entonces, el factor de corrección se puede simplificar así: a) 1 5 0.97 100 Derechos de autor en trámite b) 1 10 0.95 100 c) 1 20 0.89 100 Página 104 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Con estos resultados, es conservadora la conclusión de que la fórmula original, X se encontrará dentro de un error inferior al 10% a menos que la muestra n constituya el 10% o más de la población. Como recomendación final sería: usar la fórmula original mientras que la muestra sea menor que el 10% con respecto a N, y la fórmula corregida desde el 10% para arriba. 10.4 Distribución de Muestreo de Proporciones. El mismo factor de corrección, visto en el párrafo anterior, puede aplicarse a la desviación típica de las proporciones, cuando el tamaño de la población es lo bastante pequeño como para justificarlo. Las fórmulas vistas en el capítulo correspondiente para las distribuciones discretas, esto es, las distribuciones binomiales, nos enseño que el valor más probable es np (Nótese que éste valor más probable, es el equivalente a la media aritmética de las distribuciones continuas), siendo n el tamaño de las muestras y p la fracción defectuosa, es decir la proporción de defectos que tiene la muestra, el producto indicado, es decir un número discreto, por esto en Control de Calidad a los gráficos np se les llama gráficos de defectuosos, porque son las unidades con uno o más defectos que encontramos durante las inspecciones. En ese contexto, la desviación típica fue definida cómo: npq . De acuerdo con esto podremos deducir fácilmente las fórmulas correspondientes a la proporción p dividiendo ambas expresiones por n, con lo cual np queda reducido a p y la desviación típica que era npq quedará como : pq , nótese que al dividir por n entra dentro de la raíz como n al cuadrado. n Ahora, basándonos en las anteriores demostraciones, podemos hacer extensiva la correspondiente fórmula, para las proporciones: σ p' pq N n n N1 10.5 Distribución de muestreo de diferencias y sumas. Supongamos tener poblaciones de tamaño N1 y N2 , para cada muestra n1 y n2 calculamos los correspondientes estadísticos S1 y S2 . Esto nos da, una población de muestreo para ambos estadísticos, (nótese que por estadísticos estamos suponiendo cualquier parámetro que estamos controlando, como la media aritmética o la desviación típica, o cualquier otra cosa). Las dos poblaciones de muestreo tendrán en consecuencia una media del muestreo y una desviación típica, también de los datos del muestreo. Estas estarán denotadas por : s1 , s2 , s1 y s2 . De todas las posibles combinaciones, podremos obtener una distribución de muestreo para las diferencias de los estadísticos. La media y la desviación típica de esta distribución de muestreo, se escribe como : Derechos de autor en trámite Página 105 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales s1-s2 = s1 - s2 Autor: Edgardo Ojeda Barcos y σ s1-s2 σ 2s1 σ 2s2 Para que se cumplan estas condiciones, las muestras seleccionadas no deberán tener dependencias entre ellas, es decir, deberán ser necesariamente independientes entre sí. Si S1 y S2 son las medias muestrales de ambas poblaciones, cuyas medias escribiremos X1 y X 2 , entonces la distribución de muestreo de las diferencias de medias viene dada por: μ x1 x 2 μ x1 - μ x 2 μ1 - μ2 σ x1 x 2 σ 2x1 σ 2x 2 σ 12 σ 22 n1 n2 Estas fórmulas son válidas para muestreo de poblaciones infinitas o con reposición. Los mismos resultados los obtenemos para distribuciones de muestreo de diferencias de proporciones de dos poblaciones binomialmente distribuidas con parámetros (p1,q1) y (p2, q2) respectivamente. En este caso las fórmulas se expresan como sigue: μ p 1 p 2 μ p 1 - μ p 2 p 1 - p 2 σ p1 p 2 σ p21 σ p22 p1q1 p 2 q 2 n1 n2 Todos los desarrollos vistos sirven para el caso de la suma en lugar de la resta, así para el primer caso tendríamos: μs1 s2 μs1 μs2 y σ s1 s2 σ 2s1 σ 2s2 Esta fórmula es de uso frecuente y de gran utilidad en el área de Control de Calidad Estadístico. Nótese que para la desviación típica el resultado de la suma es el mismo que para la diferencia. 10.6 Ejercicios de Aplicación. Ejercicio 1 Si la desviación típica de las estaturas de niños de primer grado es de 5 cm, ¿cuál es la probabilidad de que la estatura promedio de una muestra al azar de 100 de estos niños difiera en más de un cm, con respecto a la estatura promedio para todos los niños? Derechos de autor en trámite Página 106 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Desarrollo: Supondremos que N (desconocido) es muy grande: Si la desviación típica es 5 cm será: x z 5 0.5 100 XX 1 2 0.5 Para z = 2, el área bajo la curva normal es igual a: 0,4772 Entonces, el área bajo la curva normal, entre –2 y +2, esto es, entre -1 y +1 alrededor de la media, será 0,4772 * 2 = 0,9544 Pero ésta será la probabilidad de que se encuentre entre los límites dados, la pregunta lo solicita fuera de dichos límites. La respuesta será 1,0000 – 0.9544 = 0,0456 Esto significa una probabilidad de 4,56 % Ejercicio 2 En el mismo ejercicio anterior supondremos que N = 500 En este caso, n = 100 es el 20% de N, por lo tanto usaremos la fórmula correspondiente: X z 500 100 0.45 100 500 1 5 XX 1 2,22 0,45 Para este valor de z, la probabilidad de que se encuentre entre +1 cm y –1cm es del 98,68% y de que se encuentre afuera, del 2.64 % Ejercicio 3 Hallar la probabilidad de que en los próximos 200 nacimientos a) menos del 40% sean niños, b) entre 43% y 57% sean niños, c) más del 54% Se deberá suponer que las probabilidades de nacimiento de niño o niña serán del 50%. Derechos de autor en trámite Página 107 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos a) p = 0,50 y q = 050, Además N es muy grande = P = 0,50 y pq 0.50* 0.50 0,03536 n 200 z X 0,4000- 0,5000 2,83 0,03536 Para este valor de z, la tabla nos da un área de 0,4977, por lo cual, el área correspondiente a menos de 40 % será: 0,500 – 0,4977 = 0,0023 Respuesta: 0.23 % b) en este caso tenemos que hacer dos cálculos: z1 0,43 0,50 1.98 0,03536 z2 0,57 0,50 1.98 0,03536 El área correspondiente será de 0,4761 * 2 = 0,9522 Respuesta: 95,22% c) z1 0,54 0,50 1,13 0,03536 El área correspondiente a z = 1.13 es 0,3708. Pero nos preguntan lo que supera a ese valor, es decir más de 54%, por lo tanto hay que restarlo de 0,5000. 0,5000 – 0,3708 = 0,1292 Respuesta: 12,92% Ejercicio 4 Derechos de autor en trámite Página 108 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Dos distancias se han medido como 27.3 cm y 15.6 cm con desviación típica de 0,16 y 0,08 cm, respectivamente. Hallar la media y la desviación típica de a) la diferencia y b) la suma de esas distancias. Solución: a) d1 –d2 = d1 - d2 = 27.3 – 15.6 = 11.7 cm d1d2 2d1 2d2 0,162 0,082 0.18cm b) d1 +d2 = d1 + d2 = 27.3 + 15.6 = 42.9 cm d1 d2 2d1 2d2 0,16 2 0,08 2 0.18cm El siguiente listado de ejercicios pertenece al libro Estadística de Murray Spieguel, el alumno deberá resolverlos como parte de su desarrollo académico. Capítulo 8 Ejercicios 8.1, 8.2, 8.3, 8.27, 8.34, 8.39, 8.40. Derechos de autor en trámite 8.4, 8.7, 8.11, 8.16, 8.21, 8.23, 8.24, 8.25, 8.26, Página 109 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Capítulo 11 11 Intervalos de confianza 11.1 Estimación por punto y por intervalo Uno de los usos más frecuentes de la estadística, es la ESTIMACIÓN de propiedades de la población. Las dos distribuciones de frecuencias de poblaciones que se han estudiado han sido la Binomial y la Normal, por lo tanto, consideraremos sus propiedades. La Distribución Binomial, N PX p X qN X X queda completamente determinada por el número de intentos n, y la probabilidad de éxito en una sola prueba p. Los símbolos n y p se llaman Parámetros de la distribución. Recordemos la diferencia entre Estadísticos y Parámetros, el primero se refiere a los medidores de la distribución de una muestra, y el segundo a los medidores de la distribución de la población. En las consideraciones siguientes hablaremos de parámetros pues estamos estudiando las propiedades de toda la población que nos interesa. Los parámetros n y p determinan completamente la distribución binomial y, consecuentemente, cualquier propiedad de la distribución. La DISTRIBUCIÓN NORMAL parámetros y . queda completamente determinada por los dos Curva Normal de Gauss Derechos de autor en trámite Página 110 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Los problemas de estimación para problemas normales generalmente a los problemas de estimación de y . pueden reducirse Existen dos tipos de estimaciones de parámetros . Uno es la estimación por punto y la otra es la estimación por intervalo. Una estimación por punto es lo habitual, esto es el número que se obtiene por cálculo a partir de los valores de la muestra y que sirve como aproximación al parámetro que se está estimando. Una estimación por intervalo, para un parámetro es un intervalo determinado por dos números que se obtienen a partir de cálculos de valores de muestras que se espera contengan el valor del parámetro en su interior. La estimación por intervalo se construye de forma tal, que la probabilidad de que el intervalo contenga al parámetro puede especificarse. Tales estimaciones por intervalo se llaman “INTERVALOS DE CONFIANZA” 11.2 Intervalo de confianza Partiremos el estudio de estos intervalos, utilizando las propiedades de la Distribución Continua llamada Curva Normal, luego de lo cual, extenderemos los conceptos, a la distribución discreta o Binomial. Supongamos que se trata de estimar la media X de cierta característica de calidad de un lote de N unidades. Para ello extraemos una muestra de n unidades y determinamos los valores X1, X2, ...,Xn El siguiente diagrama representa una interpretación de lo que se esta tratando: X1 XN X4 X X3 X2 ------------------------------------I---I-----I------I-------I----------I--I--I--------------------> I1 0 I2 eje de las X Supongamos tener n datos X de una muestra extraída de una población N, de los cuales en el eje de las X hemos ubicado los 4 primeros datos y el último dato, estos son X1 , X2 , X3 , X4 y Xn , está implícito que sobre este eje estarán todos los datos de la muestra. La media aritmética de esta muestra es X la cual fue ubicada en un lugar central de los datos escritos. Por todo lo explicado hasta ahora, la media de la población, estará cerca del valor anterior pero, probablemente, no coincidirá con el valor anterior. En el gráfico, lo hemos escrito a la derecha de X . Derechos de autor en trámite Página 111 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Ahora bien, llamaremos INTERVALO DE CONFIANZA, a una distancia desde la media aritmética X de la muestra hasta I1 e I2 , de tal forma que se encuentre dentro del tramo I1 - I2 . Nos haremos ahora dos preguntas: a) ¿cómo calcular los valores de los extremos de dicho intervalo de manera que contenga el desconocido valor de ? b) con que confianza, es decir, cual será la probabilidad de que efectivamente el desconocido valor de se encuentre dentro de dicho intervalo? El valor verdadero del lote, esto es , tendrá una cierta probabilidad conocida de estar situada en el interior de dicho intervalo. Anteriormente hemos visto que el intervalo: menos una desviación típica y más una desviación típica, alrededor de la media aritmética, encierra un área de 68.27%, si usamos este concepto en términos de probabilidades podemos decir que si tomamos una unidad de la distribución, tenemos una probabilidad del 68.27% de que se encuentre en el intervalo de masmenos una desviación típica de la media aritmética. Con el mismo criterio podemos decir que la probabilidad de que se encuentre en el intervalo de mas-menos dos desviaciones típicas es del 95.45% y de mas-menos tres desviaciones típicas del 99.73% Por otra parte, la variable z x , es la desviación respecto a la media calculada con una unidad igual a la desviación normal. Es decir la tabla normal de Gauss es una distribución donde la desviación típica vale 1 y la media aritmética vale cero. En consecuencia, la probabilidad de encontrar un valor determinado de z, inferior a 1 y superior a –1, es del 68.27% inferior a 2 y superior a –2, del 95.45% e inferior a 3 y superior a -3, del 99.73%. En consecuencia, la probabilidad de un valor de z fuera del intervalo 1 a -1, es de 31.73%, fuera del intervalo 2 a -2, del 4.55% y fuera del intervalo 3 a -3, del 0.27%. Utilizando la Tabla Normal de Gauss, podemos construir la siguiente tabla que nos será de utilidad para el resto de este capítulo y el siguiente: % nivel de confianza z 99.73 99.0 98.0 96.0 95.45 95.0 90.0 80.0 68.27 50.0 38.30 3 2.58 2.33 2.05 2 1.28 1 0.6745 0.500 Derechos de autor en trámite 1.96 1.645 Página 112 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 11.3 Estimación de la media aritmética. Supongamos que queremos determinar la resistencia a la tracción de un lote de barras de acero al carbono contenidas en una industria. De ensayos anteriores, conocemos que la desviación típica poblacional vale 200 Kg./cm2 Extraemos al azar, una muestra de 100 barras y medimos X 5.500kg/ cm2 . ¿Qué podemos inferir respecto de la media real ? Para esto sabemos que: 1) Las medias X de las muestras de 100 u, tomadas al azar, tienen como media general: , (Teorema del Límite Central, Capítulo 10). 2) La desviación normal de las medias, que mide su dispersión alrededor de es: x ´ 200 20kg/ cm2 n 100 Puesto que n es 100, o sea es mayor de 30, de acuerdo con lo visto en la Teoría del Muestreo, Capítulo 10, la distribución de las medias de muestreo, será normal. Supongamos ahora que queremos saber cual es la probabilidad de que el valor encontrado X , no difiera en más de 50 Kg../cm2de la media de la población : Este planteo supone dos hipótesis: a) 5500 - 50 5500-50 b) - 5500 50 5500+50 Y estas expresiones pueden resumirse como: 5500 - 50 5450 Derechos de autor en trámite 5500 + 50 5550 Página 113 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Estos serán los valores extremos que nos interesan, transformemos estos valores en unidades de la variable z (es ambos lados iguales) z= 5550 5500 50 2.50 20 20 La probabilidad para 2.5, según la tabla de Gauss es de 49.38% y por estar a ambos lados de la media será el doble, esto es 98,76%. Así pues, podemos decir que existe un 98,76% de probabilidad, de que el desconocido valor de , se encuentre entre 5450 Kg./cm2 y 5550 Kg./cm2. Y, como consecuencia, la probabilidad de que se encuentre fuera de dicho intervalo, será 100,00 % – 98.76 % = 1,24 %. 11.4 Margen de error y coeficiente de confianza. Puesto que con una muestra, estamos infiriendo cual podría ser el valor del parámetro poblacional, es una consecuencia lógica pensar que la diferencia entre la X conocida y la desconocida sea considerada como el Error de la Estimación. Este error será menor, cuando mayor sea la muestra. Lo cual está en línea con todo lo que se ha venido enseñando, cuanto mayor es la muestra, mejor y más confiable es la respuesta de la muestra. 5550 5500 5450 Si lo que queremos hacer es una estimación del error que tiene una probabilidad de ser menor al 5%, significará que el intervalo, que comprende el interior de la curva gaussiana, será el 95% del área de la curva normal. Por otra parte, si queremos que afuera del intervalo, exista 5%, como es simétrico, será, 2,5 % a cada lado del intervalo. Por lo tanto, si en el interior de la figura, entre ambos límites, tenemos el 95% del área, de la mitad hacia cualquiera de los dos lados tendremos el 47.5% del área, y si Derechos de autor en trámite Página 114 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos buscamos en la tablas de Gauss, para el dato más cercanos a dicho a dicho valor, tenemos que z = 1,96 De acuerdo con lo desarrollado, podemos concluir, que el error de la estimación, de un 95% va desde z = -1.96 a z = +1.96. De esta forma llegamos al concepto de Límites de Confianza y es el intervalo dentro del cual estimamos que puede encontrarse el valor de la Media Poblacional llamada . La fórmula generalizada, la podemos describir como sigue: Xz n en el caso que hemos desarrollado, estos límites con 95% de confianza serán: 5500 1.96 200 5500 39 100 También podemos expresarlo de esta otra manera: 5461<<5539 Y se expresa que, con un Coeficiente de Confianza del 95% , el desconocido valor de la media poblacional: , se encuentra entre los Límites de Confianza: 5461 y 5539. En el cálculo anterior hemos desarrollado los límites de confianza para un margen de error del 5%, pero de la misma manera podemos rehacer el cálculo para otros Coeficientes de Confianza, veamos dos ejemplos, para 90% y 99%. Para el primero, 90% implica un margen de error del 10%, esto es 5% de cada lado. Para 90% significa 45% a cada lado del cero en la distribución normal de Gauss, por ello buscamos el z mas cercano a .4500 y encontramos que el valor de z es 1.64. 5500 1.64 200 5500 33 100 o bien: 5467<<5533 Esto último significa que, con un margen de error del 10%, o dicho de otra manera, con una confianza del 90% podemos decir, que el desconocido valor de la media poblacional se encuentra entre 5467 y 5533. Derechos de autor en trámite Página 115 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Rehacemos el cálculo para un 99% de confianza o 1% de error: 5500 2.58 200 5500 52 100 o bien: 5449<<5551 Como se puede apreciar, a medida que aumentamos la confianza, los Limites se abren más, cuando somos menos exigentes, los límites se juntan. Nivel de Confianza Límites de Confianza 90% 95% 99% 5467<<5533 5461<<5539 5449<<5551 11.5 No siempre se conoce el valor de la desviación típica poblacional. En el ejemplo anterior se partió de la suposición de que conocíamos el valor de la desviación típica de la población. En ese caso los cálculos son como se han mostrado. Pero las fórmulas cambian un poco cuando no se conoce dicho parámetro. Cuando no se conoce se debe hacer una estimación con una muestra tomada al azar del lote en estudio, esta muestra deberá ser preferentemente mayor a 30 unidades y los cálculos deberán contener una corrección dada por la siguiente fórmula: n n 1 El valor de es el que se obtiene de la muestra mayor a 30, y el valor que figura bajo el signo radical, es el factor que permite estimar, en función del valor hallado, cual sería el valor del parámetro de la población. Una vez estimado se hacen los cálculos como se describió anteriormente. Otra situación que se puede dar es la siguiente, la muestra es menor a 30, pero conocemos la desviación típica de la población, en ese caso, también procedemos igual que lo descrito, pues lo que importa es el valor de la población conocido. Pero, cuando no conocemos la desviación típica poblacional, y la tenemos que estimar con una muestra de 30 o menos, entonces ya no sirve la distribución Gaussiana y la estimación vista anteriormente no es válida. En este caso, se utiliza la llamada Distribución t, que veremos a continuación. Derechos de autor en trámite Página 116 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 11.6 Distribución t, o Distribución de Student. Esta distribución se utiliza para muestras pequeñas, el valor de z se reemplaza por el valor t que es como una z más amplia, debido a la menor confianza que nos brinda la muestra al ser 30 ó menos. Esta variable t se encuentra dada en la siguiente tabla y en ella puede observarse que la columna de la izquierda se titula Grados de Libertad. Esto es uno menos que el tamaño de la muestra. Los Grados de Libertad son los valores que se pueden fijar libremente. La fórmula general para muestras de 30 ó menos y cuando no se conoce el valor de la desviación típica poblacional es: Xt n 1 donde el valor de se obtiene a partir de la muestra. Derechos de autor en trámite Página 117 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales DISTRIBUCIÓN t de Autor: Edgardo Ojeda Barcos Student El Coeficiente de Confianza está representado por el área interior de la distribución. El error está representado por las "colas" a ambos lados de la distribución. Confianza Error Grados De Libertad 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 Derechos de autor en trámite 0,50 0,50 0,75 0,25 0,80 0,20 0,85 0,15 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,681 0,679 0,677 2,414 1,604 1,423 1,344 1,301 1,273 1,254 1,240 1,230 1,221 1,214 1,209 1,204 1,200 1,197 1,194 1,191 1,189 1,187 1,185 1,183 1,182 1,180 1,179 1,178 1,177 1,176 1,175 1,174 1,173 1,167 1,162 1,156 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,296 1,289 4,165 2,282 1,924 1,778 1,699 1,650 1,617 1,592 1,574 1,559 1,548 1,538 1,530 1,523 1,517 1,512 1,508 1,504 1,500 1,497 1,494 1,492 1,489 1,487 1,485 1,483 1,482 1,480 1,479 1,477 1,468 1,458 1,449 0,90 0,10 0,95 0,05 0,98 0,02 0,99 0,01 6,314 12,706 31,821 63,656 2,920 4,303 6,965 9,925 2,353 3,182 4,541 5,841 2,132 2,776 3,747 4,604 2,015 2,571 3,365 4,032 1,943 2,447 3,143 3,707 1,895 2,365 2,998 3,499 1,860 2,306 2,896 3,355 1,833 2,262 2,821 3,250 1,812 2,228 2,764 3,169 1,796 2,201 2,718 3,106 1,782 2,179 2,681 3,055 1,771 2,160 2,650 3,012 1,761 2,145 2,624 2,977 1,753 2,131 2,602 2,947 1,746 2,120 2,583 2,921 1,740 2,110 2,567 2,898 1,734 2,101 2,552 2,878 1,729 2,093 2,539 2,861 1,725 2,086 2,528 2,845 1,721 2,080 2,518 2,831 1,717 2,074 2,508 2,819 1,714 2,069 2,500 2,807 1,711 2,064 2,492 2,797 1,708 2,060 2,485 2,787 1,706 2,056 2,479 2,779 1,703 2,052 2,473 2,771 1,701 2,048 2,467 2,763 1,699 2,045 2,462 2,756 1,697 2,042 2,457 2,750 1,684 2,021 2,423 2,704 1,671 2,000 2,390 2,660 1,658 1,980 2,358 2,617 Página 118 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Ejemplo 1: Para obtener el valor de t que corresponde a un área de 0,10 en ambos extremos de la distribución combinada, cuando hay 19 grados de libertad, se busca bajo la columna correspondiente a 0,10 y se baja por ella hasta el renglón de los 19 grados de libertad; el valor correspondiente de t es 1.729 Distribución t ,05 del área -t = 1,729 Derechos de autor en trámite ,05 del área +t = 1,729 Página 119 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Ejemplo 2: Continuando con el ejemplo visto en 11.3, donde queremos determinar la resistencia a la tracción de un lote de barras de acero al carbono contenidas en una industria. Extraemos al azar, una muestra de 26 barras y medimos X 5.500kg/ cm2 y = 200 kg/ cm2 ¿Qué podemos inferir respecto de la media real ? Deseamos pronunciarnos con una confianza del 95%, es decir, con un margen de error del 5%. Aplicando la fórmula vista para la distribución t tenemos: 5500 2.060 200 26 1 5500 82 o bien: 5418<<5582 Como puede apreciarse, los límites se han abierto significativamente debido a la falta de confianza en una muestra chica. 11.7 Intervalos de defectuosos. confianza para las proporciones o porcentajes de En 8.1, definimos que, para la distribución Binomial es: Derechos de autor en trámite Página 120 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Valor m as probable X np De s viación Típica σ npq Pero ahora nos interesa solo p, es decir el % defectuoso, para ello dividimos las fórmulas por el valor de n y nos queda: Valor m as probable X p De sviaciónTípica σ p pq n Así, la fórmula para los intervalos de confianza para las proporciones o porcentajes de defectuosos, estará dada por la siguiente expresión: pz pq n El siguiente listado de ejercicios pertenece al libro Estadística de Murray Spieguel, el alumno deberá resolverlos como parte de su desarrollo académico. Capítulo 9 Ejercicios: 9.5, 9.6, 9.7, 9.9, 9.10, 9.11, 9.12, 9.22, 9.23, 9.24, 9.25, 9.26, 9.27, 9.28, 9.30, 9.31, 9.32, 9.33, 9.34. Derechos de autor en trámite Página 121 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Capítulo 12 12 Números Índice 12.1 Relaciones de Precios La Relación de Precios es el cociente entre el precio de un artículo en un período dado y su precio en otro período, conocido como período base o período de referencia Re lación de precios pn po Problema Los precios al por menor, en centavos por libra, del cinc en Usa, durante 1978-84 son: Año Precio cinc promedio 1978 del 31.0 1979 37.3 1980 37.4 1981 44.6 1982 38.5 1983 41.4 1984 48.6 a) Con 1978 como base, hallar las relaciones de precios correspondientes a los años 1982 y 1984 p 1978 / 1982 38.5 1.242 124.2% 124.2 31.0 p 1978 / 1984 48.6 1.568 156.8% 156.8 31.0 b) Con 1980 como base, hallar las relaciones de precios correspondientes a los años dados: Año Relación de precios 1980 = 100 1978 82.9 1979 99.7 1980 100 1981 119.3 1982 102.9 1983 1107 1984 129.9 c) Usando como base 1978 – 1980, hallar las relaciones de precios correspondientes a los años dados. Primero hallamos el promedio de precios del periodo base: 35.2 Segundo dividimos cada precio de la primera tabla: Año Relación de precios 1978-1980 = 100 Derechos de autor en trámite 1978 88.1 1979 106.0 1980 106.3 1981 126.7 1982 109.4 1983 117.6 1984 138.1 Página 122 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 12.2 Relaciones de Cantidad o de Volumen Si qo denota la cantidad o volumen de producción, consumo, exportación, etc., durante un período base, y qn la correspondiente cantidad producida, consumida, etc., durante un período dado, definimos: Relación de cantidado de volumen qn qo Problema La tabla presenta la producción de trigo en Usa de 1977 a 1985. Reducir los datos de la tabla a relaciones de cantidad usando a) 1982 b) 1977-1980 como base: Año Producción de trigo 1977 1978 1979 1980 1981 1982 1983 1984 1985 2046 1776 2134 2380 2785 2765 2420 2595 2425 Reducir los datos de la tabla a relaciones de cantidad usando a) 1982 y b) 1977-1980 como base: a) Se dividen las cifras por 2765: Año Relación Cantidad (1982=100) 1977 1978 1979 1980 1981 74.0 64.2 77.2 86.1 100.7 1982 100.0 1983 1984 1985 87.5 93.9 87.7 b) La media aritmética de los años 1977 – 1980 es 2084, luego se divide la producción de cada año. ( Comprobación : la suma de los valores del período dividido 4 = 100) Año Relación Cantidad 1977 1978 1979 98.2 85.2 102.4 1980 114.2 1981 133.6 1982 132.7 1983 116.1 1984 124.5 1985 116.4 (1977-1980=100) Derechos de autor en trámite Página 123 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 12.3 Relaciones de Valor Si p es el precio de un artículo durante un período y q es la cantidad (o volumen) Producida, vendida, etc., durante ese período, entonces pq se llama valor total Si po y qo son el precio y la cantidad de un artículo durante un período base y pn y qn el precio y la cantidad correspondiente a un período dado, entonces definimos: Re lación de valor vn p q p q n n n x n relaciónde preciosx relaciónde cantidad vo p o qo p o qo Problema En enero de 1980 una empresa pagó un total de $80.000 a 120 empleados en nómina. En Julio de ese mismo año, la empresa tenía 30 trabajadores más en nómina y pagó $12.000 más que en enero. a) Con enero de 1980 como base, hallar el número índice de empleo (la relación de cantidad) para julio. b) Con enero de 1980 como base, hallar el número índice (relación de valor) trabajo - gasto para julio. c) Usando el resultado: relación de precios x relación de cantidad = relación de valor, ¿qué interpretación se le puede dar a la relación de precios en éste caso? Solución: a) El número índice de empleo es: Relaciónde cantidad 120 30 1.25 125% 125 120 b) El número índice trabajo – gasto es: Relaciónde v alor : $80.000 $12000 1.15 115% 115 $80.000 c) Despejando de la relación indicada; Relación de precios Relaciónde valor 115 0.92 92% 92 Relaciónde cantidad 125 Este es un número índice de costo por empleado. Significa que en julio de 1980 el costo por empleado era el 92% del de enero de 1980. 12.4 Relaciones de Enlace y en Cadena Derechos de autor en trámite Página 124 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Si p1, p2, p3,... representan los precios durante intervalos sucesivos de tiempo 1, 2, 3 ..., Entonces p1/2, p2/3, p3/4, ... representan las relaciones de precios de cada intervalo respecto al intervalo de tiempo precedente y se llaman: Relaciones de enlace Cuando se interpretan una a continuación de otra y se lee la variación entre un tiempo y otro forman una Cadena que muestra la variación del precio entre dichos dos instantes de tiempo. Problema Supongamos que tenemos que actualizar el monto del arriendo de un departamento que en el mes de Diciembre fue de $100.000, a) Se desea saber cual será, actualizado el monto en el mes de Julio del siguiente año. b) Cual será la variación del precio entre Abril y Junio. La información disponible son los índices de variación de precios al consumidor (IPC) de cada mes: Enero Febrero Marzo 1.1% 0.9% 1.5% Abril Mayo Junio 0.5% 0.9% 1.2% Solución: a) En primer término se debe escribir la relación de enlace, en forma de índice, para cada dato mensual: Enero Febrero Marzo 1.011 1.009 1.015 Abril Mayo Junio 1.005 1.009 1.012 Luego se calcula el producto de todos ellos: 1.011*1.009*1.015*1.005*1.009*1.012 = 1.0625 Este cálculo indica que la variación de precios a sido del 6.25% en los 6 meses estudiados. Este cálculo es una cadena de 6 meses. El producto de 1.0625 por el valor del arriendo en Diciembre nos indica el valor que deberá cobrarse en Julio. El resultado es: $ 106.250 c) La variación de precios entre Abril y Junio será: 1.005*1.009*1.012 = 1.0262 Esto es el 2.62 % Derechos de autor en trámite Página 125 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 12.5 El método de agregación simple Es el cociente del precio total de los artículos en el año dado, pn y el precio total de los artículos en el año base, po. Se expresa en forma porcentual. Indice de precios por agregaciónsimple p p n o Desventajas del método 1) No tiene en cuenta la importancia relativa de cada artículo. 2) El tipo de unidades escogidas al anotar los precios afectan al índice. (kg. o gr. , litros o mililitros, etc.) Problema La tabla muestra los precios al por mayor y las producciones en Usa de leche, mantequilla y queso para 1980, 1981, y 1985. Calcular un índice de precios al por mayor por agregación de estos productos para el año 1985, tomando como base : a) 1980 y b) 1980 – 1981. Precios (centavos por libra) Leche Mantequilla Queso 1980 13.2 139.3 156.2 1981 14.0 148.0 167.2 1985 12.9 141.1 162.0 a) El índice de precios por agregación simple es: Indice de precios por agregación simple p p n 0 Suma de precios en el año pref ijado(1985) Suma de precios en el año base ( 1980) 12.90 141.1 162.0 102.4% 13.23 139.3 156.2 b) El precio promedio 1980-1981: De la leche: 13.5, de la mantequilla: 143.7 y del queso: 161.7 Por lo tanto el índice de precios por agregación simple es: p p n o 12.90 141.1 162.0 99.1% 13.59 143.7 161.7 En la práctica la cantidad de artículos que integran un índice es muy grande y conforman una “canasta” . Derechos de autor en trámite Página 126 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 12.6 El método del promedio simple de relaciones Método de la media aritmética. Indice de la media aritméticasimple de relaciones de precios p n / po N Este método mejora respecto al anterior en que ya no tiene la segunda desventaja, pero, conserva la primera. Problema Calcular un índice de precios al por mayor para el año 1985, usando 1980 como base. Precios (centavos por libra) Leche Mantequilla Queso 1980 13.23 139.3 156.2 1981 13.95 148.0 167.2 1985 12.90 141.1 162.0 Relación de precios. De la leche: De la mantequilla: Del queso: 12.90/13.23= 97.5% 141.1/139.3=101.3% 162.0/156.2=103.7% Indice de la m ediaaritm éticasim plede relacionesde precios p n / po N Derechos de autor en trámite 97.5 101.3 103.7 100.8% 3 Página 127 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 12.7 El método de agregación ponderada Con el fin de evitar las desventajas del método de agregación simple, asignamos un peso al precio de cada artículo, en general la cantidad vendida durante el año base, durante el año dado o durante algún año típico. Tales pesos indican la importancia del artículo en cuestión. Se usan las siguientes fórmulas de pendiendo de po y pn, 1. Indice de Laspeyres o método del año base: Indicede preciospor agregaciónponderadacon pesos de cantidaden el año base p p nqo o qo El término poqo recibe el nombre de “canasta” 2. Indice de Paasche o método del año dado: Indice de preciospor agregaciónponderadacon pesos de cantidaden el año dado : Derechos de autor en trámite p p Página 128 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor n qn o qn Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 12.7.1 El método de agregación ponderada por el Indice de Laspeyres o método del año base: Problema Precios (centavos por libra) 1980 1981 1985 13,23 13,95 12,90 139,3 148,0 141,1 156,2 167,2 162,0 Años Leche Mantequilla Queso Cantidad ( millones de libras) 1980 1981 1985 128500 132800 143700 1145 1228 1248 2381 2664 2854 Con los datos de la tabla calcular el índice de Laspeyres para 1985 con a) 1980 b) con 1980-1981 de base: a) p q p q n o o o ( precios en 1985)(cantidades en 1980) ( precios en 1980)(cantidades en 1980) (12,90)(128500) (141,1)(1145) (162,0)(2381) 0,9881 98,8% (13,23)(128500) (139,3)(1145) (156,2)(2381) b) Este ejercicio de debe realizar en clase formando grupos de alumnos. Derechos de autor en trámite Página 129 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 12.7.2 El método de agregación ponderada por el Indice de Paasche o método del año dado: Problema Precios (centavos por libra) Años Leche Mantequilla Queso 1980 13,23 139,3 156,2 1981 13,95 148,0 167,2 1985 12,90 141,1 162,0 Cantidad libras) 1980 128500 1145 2381 ( millones 1981 132800 1228 2664 de 1985 143700 1248 2854 Con los datos de la tabla calcular el índice de Paasche para 1985 con a) 1980 b) con 1980-1981 de base: a) Base: 1980 p q p q n n 0 n (precios en 1985)(cantidades en 1985) (precios en 1980)(cantidades en 1985) 12,90x143700 141,1x1248 162,0 x 2854 0,9886 98,9% 13,23x143700 139,3x1248 156,2 x 2854 b) Base: 1980 - 1981 p q p q n n o n ( precios en 1985)(cantidades en 1985) ( precios en 1980 - 1981)(cantidades en 1985) (12,90)(143700) (141,1)(1248) (162,0)(2854) 0,9609 96,1% (13,59)(143700) (143,65)(1248) (161,7 )(2854) Derechos de autor en trámite Página 130 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 12.8 Deflación de series en el tiempo Aunque los ingresos de las personas pueden estar creciendo teóricamente durante un cierto número de años, sus ingresos reales pueden estar disminuyendo debido al costo de la vida, y por lo tanto puede estar disminuyendo su poder adquisitivo. Es decir que con la misma plata se compra menos productos. Calculamos los ingresos reales dividiendo los ingresos aparentes de cada año por el número índice del costo de la vida en ese año, usando un período bases adecuado. Ejemplo: Una persona gana en 1980 150% de lo que ganaba en 1970 significa un crecimiento del 50%. Sien el mismo período el costo de vida creció al 200% entonces su ingreso real son solo 150/2 = 75% de lo que era en 1970. Problema La tabla muestra el salario semanal medio de los trabajadores en el comercio minorista de Usa durante 1973-1983. También contiene el índice de precios al consumo para esos años, con 1972 como base. En términos del salario medio de 1973, determinar sus salarios reales en los años 1973-1983. Año 1973 1974 1975 Salario 96.32 102.68 108.86 114.60 121.66 130.20 138.62 147.38 158.03 163.85 171.05 Indice de precio 106.2 117.9 128.7 1976 136.1 1977 144.9 1978 155.9 1979 173.5 1980 197.0 1981 217.4 1982 230.7 1983 238.1 Solución: Hallamos primero un número índice de precios al consumo con 1973 como base, dividiendo todos los números de la fila de abajo en la tabla por 106.2, en %, Luego se divide cada salario promedio por el correspondiente número índice para obtener los salarios reales. Año 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 Indice (1973 =100) 100.0 111.0 121.2 128.2 136.4 146.8 163.4 185.5 204.7 217.2 224.2 Salario real 96.32 92.50 89.82 89.39 89.19 88.69 84.83 79.45 77.20 75.44 76.29 El salario real a 1983 es 171.05/224.2%=76.29. Los salarios se han casi doblado, los salarios reales han decrecido, el salario real en 1983 era 20 pesos menor que el de 1973. En síntesis, el poder adquisitivo disminuyó en 20/96.32=21% 12.9 Ejercicios de Aplicación. Derechos de autor en trámite Página 131 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos El siguiente listado de ejercicios pertenece al libro Estadística de Murray Spieguel, el alumno deberá resolverlos como parte de su desarrollo académico Capítulo 19: 19.1, 19.4, 19.5, 19.7, 19.8, 19.13, 19.20, 19.39, 19.41, 19.45, 19.48, 19.49, 19.50, 19.51, 19.52, 19.53, 19.55, 19.57, 19.61, 19.62, 19.77 Derechos de autor en trámite Página 132 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Capítulo 13 13 Series en el tiempo. 13.1 Análisis de series en el tiempo Una serie en el tiempo son observaciones tomadas en momentos determinados preferentemente a intervalos regulares. Normalmente estas observaciones se grafican dando así los llamados Gráficos de series de Tiempo. Para explicar en que consiste el análisis que nos interesa, recurriremos a un ejemplo tomado del libro de Estadística de M. Spieguel. Se trata de la Producción de energía eléctrica no industrial en E.E.U.U. en el período 1976-1981. En este gráfico podremos describir dos tipos de observaciones, dependiendo de que es lo que queremos averiguar. La primera observación del comportamiento alterno, si se quiere violento en sus variaciones, es que el conjunto muestra una tendencia a crecer, a incrementarse con el tiempo. La segunda observación será que las ondulaciones del gráfico sugieren variaciones estacionales donde se repiten situaciones sucesivas de crecimientos muy rápidos seguidos de depresiones de casi iguales características. El análisis de la serie va a depender, precisamente, del tipo de información que necesitamos. Si lo que buscamos es el comportamiento al largo plazo, nos va a proporcionar la información requerida una regresión lineal o un análisis de la tendencia. Cualquiera de estos dos procedimientos, nos proporciona una recta que pasa por los lugares mas cercanos a todos los puntos representando así a todo el conjunto. Estas rectas se utilizan especialmente para predecir. Este concepto correlación y regresión, ya fue visto en el Capítulo 9 de este Apunte. Pero, si lo que nos interesa son las fluctuaciones en el corto y mediano plazo, nos interesará conocer las causas de las fluctuaciones, predecirlas pero en el corto plazo, ver la regularidad, si existe, de dichos ciclos. para eso lo que nos conviene es suavizar las movimientos enérgicos de los datos individuales, y para ello recurriremos a los llamados Promedios Móviles. La función de estos Promedios Móviles es disminuir la variación de los datos individuales y los transforma de ondas más suaves donde podemos analizar la periodicidad, si existe, asimilarla a períodos temporales como invierno, verano, noche y día, o cualquier otra causa que pudiera deducirse como responsables de las variaciones que se estudian. Existen promedios móviles para tres períodos, cinco períodos, siete, etc. Es preferible por razones que veremos adelante utilizar promedios móviles impares para poder representar los gráficos correctamente. Si por necesidad se utiliza un promedio móvil par, se lo denomina no centrado. Los promedios móviles no centrados pueden centrarse, repitiendo los promedios de nuevo, pero utilizando la misma serie obtenida. Derechos de autor en trámite Página 133 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos A continuación se analiza cada caso. En las dos primeras páginas figuran en columnas: a) los períodos estudiados, b) los valores correspondientes a cada período considerado (consumos mensuales), c) los valores que describen la Tendencia, d) los valores que describen la Recta de Regresión, e) los Promedios Móviles de tres meses, f) los Promedios Móviles de 5 meses. Los gráficos muestran sucesivamente: Gráfico 1: La variación de los consumos mensuales Gráfico 2: Las rectas de Tendencia y de Regresión Lineal correspondientes a los consumos anteriores. Gráfico 3: El Promedio Móvil de 3 meses Gráfico 4: El Promedio Móvil de 5 meses. Gráfico 5 : Todos los gráficos juntos. La interpretación sería la siguiente: El consumo muestra un crecimiento sostenido a lo largo del período estudiado. El incremento del período puede estimarse en 13% considerando los promedios del primero y el último año. El promedio móvil de 3 meses es insuficiente para descubrir las variaciones estacionales, pero el de 5 meses muestra claramente 6 variaciones estacionales correspondientes a los años estudiados, estas variaciones estacionales anuales corresponden al incremento de consumo en los meses de invierno y su decrecimiento en la temporada de verano. Por otra parte, debemos considerar lo siguiente, los promedios móviles estudiados de 3 y 5 meses se los llama centrados pues el valor hallado puede asignarse al mes del medio de la serie. Si por alguna razón se toma un número par de meses, el valor obtenido se lo denomina no centrado pues el valor hallado se encuentra entre los dos valores centrales, y esto debe tenerse en cuenta en caso de necesitar graficarlos. Una buena solución es volver a promediar de a pares los valores obtenidos con lo que se vuelven a centrar. Este caso se discute en clase. Hemos mencionado hasta ahora dos tipos de movimientos de las series estacionales, al primero lo hemos denominado tendencia y recibe también el nombre de movimiento secular o de largo plazo. Al segundo lo llamamos variaciones estacionales que se suceden dentro del año, pero estos no son los únicos movimientos de una serie, existen los llamados ciclos con las mismas características que los estacionales, pero que no se ajustan a un período anual sino que pueden ser menores o mayores a un año, son muy conocidos los llamados ciclos económicos que representan prosperidad, recesión, depresión y recuperación. Otro caso pueden ser los llamados Movimientos irregulares o aleatorios, estos movimientos se producen a consecuencia de hechos muy significativos, como puede ser guerra, terremotos y otros que producen un cambio del escenario que hasta ahora funcionaba y este cambio producirá una interferencia muy importante hasta que se establezca un nuevo panorama, que permita nuevamente la predicción estadística. TIEMPO VALORES MENSUALES Derechos de autor en trámite TENDENCIA REGRESION PROMEDIO PROMEDIO MOVIL DE MOVIL DE TRES MESES CINCO MESES Página 134 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales 1976 1977 1978 1979 1980 ERO FRO MZO ABR MYO JUN JUL AGO SET OCT NOV DIC ERO FRO MZO ABR MYO JUN JUL AGO SET OCT NOV DIC ERO FRO MZO ABR MYO JUN JUL AGO SET OCT NOV DIC ERO FRO MZO ABR MYO JUN JUL AGO SET OCT NOV DIC ERO FRO 178,2 156,7 164,2 153,2 157,5 172,6 185,9 185,8 165,0 163,6 169,0 183,1 196,3 162,8 168,6 156,9 168,2 180,2 197,9 195,9 176,0 166,4 166,3 183,9 197,3 173,7 173,2 159,7 175,2 187,4 202,6 205,6 185,6 175,6 176,3 191,7 209,5 186,3 183,0 169,5 178,2 186,7 202,4 204,9 180,6 179,8 177,4 188,9 200,0 188,7 Derechos de autor en trámite 170,5 170,8 171,2 171,5 171,9 172,3 172,6 173,0 173,4 173,7 174,1 174,4 174,8 175,2 175,5 175,9 176,2 176,6 177,0 177,3 177,7 178,0 178,4 178,8 179,1 179,5 179,8 180,2 180,6 180,9 181,3 181,7 182,0 182,4 182,7 183,1 183,5 183,8 184,2 184,5 184,9 185,3 185,6 186,0 186,3 186,7 187,1 187,4 187,8 188,1 169,9 170,3 170,6 171,0 171,4 171,7 172,1 172,4 172,8 173,2 173,5 173,9 174,2 174,6 175,0 175,3 175,7 176,1 176,4 176,8 177,1 177,5 177,9 178,2 178,6 178,9 179,3 179,7 180,0 180,4 180,8 181,1 181,5 181,8 182,2 182,6 182,9 183,3 183,6 184,0 184,4 184,7 185,1 185,5 185,8 186,2 186,5 186,9 187,3 187,6 Autor: Edgardo Ojeda Barcos 166,4 158,0 158,3 161,1 172,0 181,4 178,9 171,5 165,9 171,9 182,8 180,7 175,9 162,8 164,6 168,4 182,1 191,3 189,9 179,4 169,6 172,2 182,5 185,0 181,4 168,9 169,4 174,1 188,4 198,5 197,9 188,9 179,2 181,2 192,5 195,8 192,9 179,6 176,9 178,1 189,1 198,0 196,0 188,4 179,3 182,0 188,8 192,5 192,1 162,0 160,8 166,7 171,0 173,4 174,6 173,9 173,3 175,4 175,0 176,0 173,5 170,6 167,3 174,4 179,8 183,6 183,3 180,5 177,7 178,0 177,5 178,9 177,6 175,8 173,8 179,6 186,1 191,3 191,4 189,1 187,0 187,7 187,9 189,4 188,0 185,3 180,7 184,0 188,3 190,6 190,9 189,0 186,3 185,3 187,0 188,5 186,7 Página 135 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales 1981 MZO ABR MYO JUN JUL AGO SET OCT NOV DIC ERO FRO MZO ABR MYO JUN JUL AGO SET OCT NOV DIC 187,5 168,6 175,7 189,4 216,1 215,4 191,4 178,5 178,6 195,6 205,2 179,6 185,4 172,4 177,7 202,7 220,2 210,2 186,9 181,4 175,6 195,6 Derechos de autor en trámite 188,5 188,9 189,2 189,6 189,9 190,3 190,7 191,0 191,4 191,8 192,1 192,5 192,8 193,2 193,6 193,9 194,3 194,6 195,0 195,4 195,7 196,1 188,0 188,4 188,7 189,1 189,4 189,8 190,2 190,5 190,9 191,2 191,6 192,0 192,3 192,7 193,1 193,4 193,8 194,1 194,5 194,9 195,2 195,6 Autor: Edgardo Ojeda Barcos 181,6 177,3 177,9 193,7 207,0 207,6 195,1 182,8 184,2 193,1 193,5 190,1 179,1 178,5 184,3 200,2 211,0 205,8 192,8 181,3 184,2 184,1 182,0 187,5 193,0 197,6 198,2 196,0 191,9 189,9 187,5 188,9 187,6 184,1 183,6 191,7 196,6 199,5 200,3 194,9 189,9 Página 136 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Producción de energía eléctrica no industrial en E.E.U.U. 1976-1981 230 Miles de millones de kilovatios-hora (kwh) 220 210 200 190 180 170 160 150 1981 1981 1980 1980 1979 1979 1978 1978 1977 1977 1976 1976 140 DATOS DEL CONSUMO MENSUAL DE ENERGIA 1976-1981 GRAFICO 1 Derechos de autor en trámite Página 137 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Producción de energía eléctrica no industrial en E.E.U.U. 1976-1981 230 Miles de millones de kilovatios-hora (kwh) 220 210 200 190 180 170 160 150 1981 1981 1980 1980 1979 1979 1978 1978 1977 1977 1976 1976 140 LAS LINEAS RECTAS MUESTRAN LA LINEA DE REGRESION (ROJO) Y LA TENDENCIA (AZUL) GRAFICO 2 Derechos de autor en trámite Página 138 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Producción de energía eléctrica no industrial en E.E.U.U. 1976-1981 230 210 200 190 Producción de energía eléctrica no industrial en E.E.U.U. 1976-1981 180230 170220 Miles de millones de kilovatios-hora (kwh) Miles de millones de kilovatios-hora (kwh) 220 160210 150200 1981 1981 1980 1980 1979 1979 1978 1978 1977 1977 1976 1976 140190 180 LA LINEA CELESTE MUESTRA EL PROMEDIO MOVIL DE TRES PERIODOS GRAFICO 3 170 160 Derechos de autor en trámite 1981 1981 1980 1980 1979 1978 1978 1977 1977 1976 140 1976 150 Página 139 de 157 DEL LA LINEA VERDE MUESTRA LA VARIACION PERIODOS 5 DE MOVIL PROMEDIO Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor GRAFICO 4 Estadística para ingenieros y técnicos de Institutos profesionales Derechos de autor en trámite Autor: Edgardo Ojeda Barcos Página 140 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Producción de energía eléctrica no industrial en E.E.U.U. 1976-1981 230 Miles de millones de kilovatios-hora (kwh) 220 210 200 190 180 170 160 1981 1981 1980 1980 1979 1978 1978 1977 1977 1976 140 1976 150 TODAS LAS LINEAS JUNTAS GRAFICO 5 13.2 Estimación de las variaciones Estacionales. El Indice Estacional. Derechos de autor en trámite Página 141 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Utilizando los mismos datos anteriores, procederemos a calcular los índices estacionales para el período dado. La siguiente tabla repite los datos pero ordenados para poder realizar los cálculos en forma ordenada. 1976 1977 1978 1979 1980 1981 Ero 178.2 196.6 197.3 209.5 200.0 205.2 Fro 156.7 162.8 173.7 186.3 188.7 179.6 Mzo 164.2 168.6 173.2 183.0 187.5 185.4 Abr 153.2 156.9 159.7 169.5 168.6 172.4 Myo 157.5 168.2 175.2 178.2 175.7 177.7 Jun 172.6 180.2 187.4 186.7 189.4 202.7 Jul 185.9 197.9 202.6 202.4 216.1 220.2 Ago 185.8 195.9 205.6 204.9 215.4 210.2 Set 165.0 176.0 185.6 180.6 191.5 186.9 Oct 163.6 166.4 175.6 179.8 178.5 181.4 Nov 169.0 166.3 176.3 177.4 178.6 175.6 Dic 183.1 183.9 191.7 188.9 195.6 195.6 A continuación procederemos a calcular los promedios mensuales para cada año: AÑO 1976 1977 1978 1979 1980 1981 PROMEDIO ANUAL 169.6 176.6 183.7 187.3 190.5 191.1 Utilizando cada promedio mensual, transformaremos cada valor mensual de la primera tabla en un índice, de la forma siguiente: 178.2/169.6 = 105.1% 1976 1977 1978 1979 1980 1981 Total Media ERO 105.1 111.2 107.4 111.9 105.0 107.4 648.0 FRO 92.4 92.2 94.6 99.5 99.1 94.0 571.8 MZA 96.8 95.5 94.3 97.7 98.4 97.0 579.7 ABR 90.3 88.8 86.9 90.5 88.5 90.2 535.2 MYO 92.9 95.2 95.4 95.1 92.2 93.0 563.8 JUN 101.8 102.0 102.0 99.7 99.4 106.1 611.0 JUL 109.6 112.1 110.3 108.1 113.4 115.2 668.7 AGO 109.6 110.9 111.9 109.4 113.1 110.0 664.9 SET 97.3 99.7 101.0 96.4 100.5 97.8 592.7 OCT 96.5 94.2 95.6 96.0 93.7 94.9 570.9 NOV 99.6 94.2 96.0 94.7 93.8 91.9 570.2 DIC 108.0 104.1 104.4 100.9 102.7 102.4 622.5 108.0 95.3 96.6 89.2 94.0 101.8 111.5 110.8 98.8 95.2 95.0 103.8 Esta última fila son los datos buscados y representan los índices Estacionales Derechos de autor en trámite Página 142 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 120 110 100 90 80 70 60 50 ER O FR O M ZO A B R M YO JU N JU L A G O SE T O C T N O V D IC Porcentaje de variación Indices Estacionales Período 1976-1986 Meses Derechos de autor en trámite Página 143 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 13.3 Ejercicios de Aplicación. El siguiente listado de ejercicios pertenece al libro Estadística de Murray Spieguel, el alumno deberá resolverlos como parte de su desarrollo académico Capítulo 13: 18.1, 18.3, 18.6, 18.7, 18.9, 18.17, 18.18, 18.19, 18.21, 18.32, 18.36, 18.42 Derechos de autor en trámite Página 144 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Capitulo 14 14 Pruebas de Hipótesis Los casos prácticos de la toma de decisiones, se ven muchas veces ayudados por pruebas estadísticas que nos ayudan a decidir si algo es diferente que otro, si ambos pertenecen a una misma familia o si son estadísticamente diferentes. Estos procedimientos estadísticos tienen la virtud de que se puede conocer el riesgo que se tiene al tomar las diferentes decisiones. 14.1 Hipótesis Estadísticas El siguiente procedimiento es un método formal (y antiguo) de mencionar las diferentes alternativas de decisiones. Hipótesis nula = H0 Esta hipótesis se plantea con el propósito de probar si lo que se dice es verdad y se plantea lo inverso como alternativa. Se dice que no es verdad lo que se quiere demostrar. Por ejemplo, si sospechamos que una moneda es falsa y queremos demostrarlo, partimos de la Hipótesis Nula de que la moneda es buena. Esta Hipótesis la designaremos como H0. Hipótesis Alternativa = H1 Todo lo que difiera de la Hipótesis Nula, se denomina Hipótesis Alternativa. Por ejemplo, si una Hipótesis Nula, fuera p = 0,5, Hipótesis Alternativa, podría ser: P = 0,7 ó p 0,5 ó p > 0,5 etc. La Hipótesis Alternativa se denota como H1. 14.2 Contrastes de Hipótesis y significación, o reglas de decisión. En ciertas circunstancias, la información que rodea un experimento sustenta la idea de que algo es de determinada manera, pero los resultados de los ensayos no parecen apoyar nuestra presunción. En esas circunstancias, diremos que los resultados resultan significativamente diferentes y nos veremos inclinados a rechazar la hipótesis o al menos a no aceptarla. Por ejemplo, supongamos que tenemos un dado que creemos bueno, pero al arrojarlo 60 veces el 1 aparece 18 veces, esto esta muy alejado de las probables 10 veces que serian si el dado esta bueno, por ello nos vemos inclinados a rechazar la Hipótesis de que el dado es bueno. Sin embargo, la duda es factible, pues solo por azar, el 1 podría salir 18 veces, existe una probabilidad mensurable que apoya que eso es posible, sin que el dado este realmente malo. Derechos de autor en trámite Página 145 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Los ensayos, test o contrastes de hipótesis, significación o reglas de decisión, nos ayudan a decidir si aceptamos o rechazamos las Hipótesis. 14.3 Errores de Tipo I y de Tipo II Tipo I: Es rechazar H0 cuando es verdad. Tipo II: Es aceptar H0 cuando es falsa. Decisión Acepto H0 Rechazo H0 Si es H0 Verdad Decisión correcta Error de Tipo I Si es H0 Falsa Error de Tipo II Decisión correcta Las reglas de decisión se diseñan para que los errores de tipo I y II sean los menores posibles, pero no es sencillo, pues cuando se minimiza unos de ellos, va en perjuicio del otro. La única forma de minimizar los dos tipos de errores es aumentando el tamaño de la muestra, y eso no es siempre posible. 14.4 Nivel de significación Cuando hacemos un contraste de hipótesis debemos considerar, antes de realizar el ensayo, cual será el riesgo que estaremos dispuetos a correr respecto del error Tipo I, o sea de rechazar algo que es verdad. Este riesgo, expresado como probabilidad, e indicado como , será el máximo que estamos dispuesto a tolerar y lo llamaremos Nivel de Significación del test de Hipótesis. En la práctica es frecuente un nivel de significación de 0,05 ó 0,01, aunque hay otros. Si se escoge 0,05 (5%), al diseñar una regla de decisión, significa que hay 5 oportunidades entre 100 de rechazar la hipótesis cuando se debiera haber aprobado. Es decir, tenemos un 95% de confianza de que hemos adoptado la decisión correcta. En este caso decimos que la hipótesis ha sido rechazada al nivel de significación 0,05, lo cual quiere decir que la hipótesis tiene una probabilidad 0,05 de ser falsa. Derechos de autor en trámite Página 146 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 14.5 Contrastes mediante la distribución normal 0,95 Región crítica 0,025 z=-1,96 Región crítica 0,025 z=+1,96 La figura nos muestra que podemos tener 95% de confianza de que si la hipótesis es verdadera, el valor de z para un estadístico de la muestra S, estará comprendida entre -1.96 y +1.96. Por otra parte, si al sacar una muestra y calcular su estadístico, y determinar su correspondiente valor de z nos da un valor fuera del intervalo indicado, podremos concluir que dicho evento, podría suceder solo en el 5% de los casos y por ello nos veríamos inclinados a rechazar la hipótesis. Así decimos que se rechaza a un nivel de significancia del 0.05. o que el valor de z es significativo al nivel 0.05. El conjunto de z fuera del rango –1.96 a +1.96 se llama región crítica de la hipótesis, región de rechazo de la hipótesis o región de significación. El conjunto de z en el rango interior se conoce como región de aceptación de la hipótesis o región de no significación. Derechos de autor en trámite Página 147 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales REGION DE RECHAZO Autor: Edgardo Ojeda Barcos REGION DE RECHAZO REGION DE APROBACION Finalmente, las reglas de decisión, o contraste de hipótesis o significación, son las siguientes: Alternativa 1 Rechazar la hipótesis al nivel de significación 0.05 si el valor de z para el estadístico s esta fuera del rango -1.96 y +1.96. Esto significa que el estadístico de la muestra es significativo al nivel 0.05. Alternativa 2 Aceptar la hipótesis en caso contrario o bien, no tomar decisión alguna. Los ejemplos fueron hechos al nivel 0.05 pero podría ser cualquier otro valor sustituyendo el 1.96. La siguiente tabla ilustra las alternativas Nivel de significancia, Valores críticos de z para tests unilaterales Valores críticos de z para tests bilaterales. Derechos de autor en trámite 0.10 0.05 0.025 -1.28 o -1.645 o -1.96 +1.28 +1.645 +1.96 -1.645 y -1.96 y -2.24 1.645 1.96 2.24 0.01 o -2.33 +2.33 y -2.58 2.58 0.005 0.002 o -2.58 o -2.88 o +2.58 +2.88 y -2.81 y -3.08 y 2.81 3.08 Página 148 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 14.6 Tres distintos niveles de significación: Nivel de significancia de 0,01 Región crítica 0,005 del área 0,99 del área Región crítica 0,005 del área x media Nivel de significancia de 0,1 Región crítica 0,05 del área 0,90 del área Región crítica 0,05 del área x media Nivel de significancia de 0,5 Región crítica 0,25 del área Región crítica 0,25 del área 0,50 del área x media Derechos de autor en trámite Página 149 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos En el primero y segundo caso, podríamos aceptar la hipótesis nula de que la media de la población es igual al valor supuesto, pero en el tercer caso sería rechazada, pues allí nuestro nivel de significancia, 0.50 está tan alto que rara vez la aceptaremos, cuando no sea verdadera, pero, al mismo tiempo, frecuentemente la rechazaremos aunque sea verdadera. Por otra parte, aún cuando el estadístico de la muestra no caiga en la región crítica no prueba que la Hipótesis nula es verdadera, simplemente, no ofrece videncia estadística para rechazarla. La única manera de aceptarla o rechazarla con certidumbre sería si conociéramos el verdadero valor del parámetro de la población, pero normalmente ese valor, no lo conocemos. 14.7 Selección de un nivel de significancia No existe un nivel de significancia “oficial" con el cual probar una hipótesis, en algunos casos conviene al 5%, en otros el 1% de significancia. Cuanto más alto sea el nivel de significancia que utilizaremos al probar una hipótesis, mayores probabilidades habrá de rechazar una hipótesis nula que sea verdadera, (Error Tipo I). 14.8 Uso de la distribución t para la toma de decisiones. Luego de decidir que nivel de significancia usar, el siguiente paso en la prueba de Hipótesis consiste en determinar la distribución adecuada de probabilidad. Tenemos una opción entre la distribución normal y la distribución t. Condiciones para usar la Distribución Normal y la distribución t en las pruebas de hipótesis de medias. n > 30 n ≤ 30 y la población normal o aprox. normal Derechos de autor en trámite Si se conoce Distribución Normal, tabla z Distribución Normal, tabla z Si no se conoce Distribución Normal, tabla z Distribución Student, tabla t Página 150 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos 14.9 Ejercicios de aplicación desarrollados. Ejemplo 1 Una tienda de artículos deportivos ha iniciado una promoción especial para sus esquís de alta montaña y piensa que la promoción deberá culminar en un cambio de precio. Sabe que, antes de comenzar la promoción, el precio promedio, al menudeo del esquí, era de $41,95 con = $5.36. La tienda saca una muestra en 16 de sus detallistas y descubre que el precio promedio de los esquís, es ahora $38.95. En un nivel de significancia de 0.02 ¿tiene motivos para pensar que el precio promedio al menudeo ha disminuido? Nivel de significancia de 0,02 para un solo lado, pues interesa saber si bajó de precio. sigma = 1,34 Región crítica 0,02 del área 38,95 0,98 del área 39,2 x = $38.95 n = 16 H0 = $41.95 41,95 ’ = $ 5.36 H0 : = $41.95 H1 : < $41.95 x 5.36 5.36 1.34 4 16 Para un nivel de significancia = 0,02 tendremos que z = 2,05, entonces: 41.95-2,05*1.34=39.2 En consecuencia el promedio de la muestra, 38.95 cae en la zona de rechazo y por ello no se acepta la Hipótesis nula, y la tienda deberá pensar que el precio ha disminuido. Ejemplo 2 La comisión promedio que cobran las empresas norteamericanas de servicios completos de corretaje en las ventas de acciones comunes es de $144, con una Derechos de autor en trámite Página 151 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos desviación típica de $52. Un corredor ha extraído una muestra de 121 transacciones de sus clientes y determinó que pagaron una comisión promedio de $151. En un nivel de significación de 0,10, ¿podemos decir que las comisiones de su cliente son superiores al promedio de la industria? x = $151 n = 121 H0 = $144 ’ = $ 52 H0 : = $144 H1 : > $144 x 52 52 4.73 121 11 Para un nivel de significación = 0,10 tendremos que z = 1.28, entonces: 144+1.28*4.73=150 El valor $151 entra en la zona de rechazo. Se rechaza la Hipótesis nula, las comisiones son significativamente más altas, o sea se acepta la Hipótesis de alternativa. Y podemos decir que las comisiones son superiores al promedio de la industria. Ejemplo 3 Una empresa industrial supone que la vida de sus prensas rotativas es de 14.500 horas, con una desviación típica de 2.100 horas. De una muestra de 25 prensas la compañía obtiene una media muestral de 13.000 horas. En un nivel de significación de 0,01 ¿debe la compañía concluir que la vida media de las prensas es menor que las 14.500 supuestas? x = 13.000 Hs. n = 25 H0 = 14.500Hs. ’ = 2.100Hs. H0 : = 14.500Hs. H1 : < 14.500Hs. x 2.100 2100 420 Hs. 5 25 Para un nivel de significancia = 0,01 tendremos que z = 2.33, entonces: 14.500 - 2.33 * 420=13.521Hs. Derechos de autor en trámite Página 152 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Por lo tanto se rechaza la Hipótesis nula, el promedio de vida es significativamente más bajo. 14.10 Ejercicios de Aplicación. El siguiente listado de ejercicios pertenece al libro Estadística de Murray Spieguel, el alumno deberá resolverlos como parte de su desarrollo académico Capítulo 10.1, 10.2, 10.6, 10.7, 10.8, 10.9, 10.34, 10.36 Derechos de autor en trámite Página 153 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos Capítulo 15 15 Análisis de Varianza 15.1 Distribución F La razón F llamada también razón de varianzas, se utiliza para probar la hipótesis referida a la igualdad de dos varianzas poblacionales estimadas. Se la utiliza para analizar diferencias entre varianzas de muestras. Supongamos tener una población gaussiana y que extraemos de ella dos muestras de tamaño n1 y n2 . De cada muestra calculamos la desviación típica, S1 y S2. La razón F se expresa así: s12 F 2 s2 El mayor valor de la varianza va colocado como dividendo y el menor como divisor. En el caso que se describe donde partimos sacando dos muestras de la misma población, no tenemos duda de que las varianzas serán muy parecidas y por ello F será muy próxima a uno. Cuando no está cerca de uno nos preguntamos si ello puede ser debido al azar o bien a otra causa, por ejemplo, que las muestras no sean de dos poblaciones iguales. Esta variable F se distribuye como otras poblaciones de muestreo, y su forma depende solo de la cantidad de datos que se tengan disponibles para la estimación del numerador de s2 y los que se tengan para la estimación del denominador Al final de este capítulo se incluye dos tablas de la distribución F para probabilidad 1% y 5%. Así para n1 = 6 y n2 = 13, el valor crítico es 3.11 (se busca para 5 y 12, es decir para n-1 grados de libertad). Esto significa que existe una probabilidad del 5% de obtener una F mayor al 3.11 solo por motivos de azar. Por ello si se supera este valor, tendremos la posibilidad de rechazar la H0. El esquema de cálculo se basa en obtener una estimación de la varianza partiendo de la columnas de los datos que se analizan, esto nos dará una varianza llamada Vc, luego procedemos a estimar nuevamente la varianza pero desde otro punto de vista, esto es empleando la relación que existe entre la varianza de una media de muestra y la varianza de la población. El esquema siguiente explica el método: 15.2 Análisis de Varianza y Cálculo de F, con una variable de clasificación. Problema Los siguientes datos dan los rendimientos de un producto químico, obtenido de intentar 4 catalizadores diferentes en el proceso. Probar que los rendimientos se ven afectados por los catalizadores. Se solicita probar con una probabilidad de equivocarse del 5%, que los catalizadores afectan al rendimiento, por ello partiremos Derechos de autor en trámite Página 154 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Autor: Edgardo Ojeda Barcos de la H0 = 1=2=3=4 . Este planteo es lo opuesto. Es decir si H0 fuera cierta, los catalizadores no producen efecto en los rendimientos. Los datos experimentales son: Cálculo de la varianza de las medias: (variabilidad entre las columnas, variación entre tratamientos) X I 36 33 35 34 32 34 II 35 37 36 35 37 36 III 35 39 37 38 39 38 IV 34 31 35 32 34 33 34.00 36.00 37.67 33.17 2X 4.10 Luego : 2X n 2X n n finalmente : x Cálculo de las varianzas por columnas: (variabilidad dentro de las columnas, dentro del tratamiento) n-1 1.41 0.89 1.51 1.47 2 2.00 0.79 2.28 2.16 Vc Vm 6 * 4.10 24.60 Cálculo de F: F Vm 24.60 13.60 Vc 1.808 2.00 0.79 2.28 2.16 1.808 4 De tablas al 5%: Para: V1 = 3 y V2 = 20 Es : F0=3.10 Derechos de autor en trámite Conclusión: Se rechaza la Hipótesis de que el catalizador no tiene efecto en los rendimientos. Página 155 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales Distribuciones de F 1% 1 2 Autor: Edgardo Ojeda Barcos 1% 3 4 5 6 7 8 9 10 11 12 14 16 20 40 100 6334 1 4052 4999 5404 5624 5764 5859 5928 5981 6022 6056 6083 6107 6143 6170 6209 6286 2 98,50 99,00 99,16 99,25 99,30 99,33 99,36 99,38 99,39 99,40 99,41 99,42 99,43 99,44 99,45 99,48 99,49 3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,34 27,23 27,13 27,05 26,92 26,83 26,69 26,41 26,24 4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,45 14,37 14,25 14,15 14,02 13,75 13,58 5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,96 9,89 9,77 9,68 9,55 9,29 9,13 6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,79 7,72 7,60 7,52 7,40 7,14 6,99 7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,54 6,47 6,36 6,28 6,16 5,91 5,75 8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,73 5,67 5,56 5,48 5,36 5,12 4,96 9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,18 5,11 5,01 4,92 4,81 4,57 4,41 10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,77 4,71 4,60 4,52 4,41 4,17 4,01 11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,46 4,40 4,29 4,21 4,10 3,86 3,71 12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,22 4,16 4,05 3,97 3,86 3,62 3,47 13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 4,02 3,96 3,86 3,78 3,66 3,43 3,27 14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,86 3,80 3,70 3,62 3,51 3,27 3,11 15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,73 3,67 3,56 3,49 3,37 3,13 2,98 16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,62 3,55 3,45 3,37 3,26 3,02 2,86 17 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,52 3,46 3,35 3,27 3,16 2,92 2,76 18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,43 3,37 3,27 3,19 3,08 2,84 2,68 19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,36 3,30 3,19 3,12 3,00 2,76 2,60 20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,29 3,23 3,13 3,05 2,94 2,69 2,54 21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,24 3,17 3,07 2,99 2,88 2,64 2,48 22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,18 3,12 3,02 2,94 2,83 2,58 2,42 23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,14 3,07 2,97 2,89 2,78 2,54 2,37 24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,09 3,03 2,93 2,85 2,74 2,49 2,33 25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 3,06 2,99 2,89 2,81 2,70 2,45 2,29 26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 3,02 2,96 2,86 2,78 2,66 2,42 2,25 27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06 2,99 2,93 2,82 2,75 2,63 2,38 2,22 28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,96 2,90 2,79 2,72 2,60 2,35 2,19 29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09 3,00 2,93 2,87 2,77 2,69 2,57 2,33 2,16 30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,91 2,84 2,74 2,66 2,55 2,30 2,13 31 7,53 5,36 4,48 3,99 3,67 3,45 3,28 3,15 3,04 2,96 2,88 2,82 2,72 2,64 2,52 2,27 2,11 32 7,50 5,34 4,46 3,97 3,65 3,43 3,26 3,13 3,02 2,93 2,86 2,80 2,70 2,62 2,50 2,25 2,08 33 7,47 5,31 4,44 3,95 3,63 3,41 3,24 3,11 3,00 2,91 2,84 2,78 2,68 2,60 2,48 2,23 2,06 34 7,44 5,29 4,42 3,93 3,61 3,39 3,22 3,09 2,98 2,89 2,82 2,76 2,66 2,58 2,46 2,21 2,04 35 7,42 5,27 4,40 3,91 3,59 3,37 3,20 3,07 2,96 2,88 2,80 2,74 2,64 2,56 2,44 2,19 2,02 36 7,40 5,25 4,38 3,89 3,57 3,35 3,18 3,05 2,95 2,86 2,79 2,72 2,62 2,54 2,43 2,18 2,00 37 7,37 5,23 4,36 3,87 3,56 3,33 3,17 3,04 2,93 2,84 2,77 2,71 2,61 2,53 2,41 2,16 1,98 38 7,35 5,21 4,34 3,86 3,54 3,32 3,15 3,02 2,92 2,83 2,75 2,69 2,59 2,51 2,40 2,14 1,97 39 7,33 5,19 4,33 3,84 3,53 3,30 3,14 3,01 2,90 2,81 2,74 2,68 2,58 2,50 2,38 2,13 1,95 40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,73 2,66 2,56 2,48 2,37 2,11 1,94 41 7,30 5,16 4,30 3,81 3,50 3,28 3,11 2,98 2,87 2,79 2,71 2,65 2,55 2,47 2,36 2,10 1,92 42 7,28 5,15 4,29 3,80 3,49 3,27 3,10 2,97 2,86 2,78 2,70 2,64 2,54 2,46 2,34 2,09 1,91 43 7,26 5,14 4,27 3,79 3,48 3,25 3,09 2,96 2,85 2,76 2,69 2,63 2,53 2,45 2,33 2,08 1,90 7,25 5,12 4,26 3,78 3,47 3,24 3,08 2,95 2,84 2,75 2,68 2,62 2,52 2,44 2,32 2,07 1,89 44 Distribuciones de F 5% Derechos de autor en trámite Página 156 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor Estadística para ingenieros y técnicos de Institutos profesionales 5% 1 1 2 3 4 5 161 199 216 225 6 7 8 9 Autor: Edgardo Ojeda Barcos 10 11 12 14 16 20 40 100 251 253 230 234 237 239 241 242 243 244 245 246 248 2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,40 19,41 19,42 19,43 19,45 3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,76 8,74 8,71 8,69 8,66 8,59 8,55 4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,94 5,91 5,87 5,84 5,80 5,72 5,66 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,70 4,68 4,64 4,60 4,56 4,46 4,41 6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,03 4,00 3,96 3,92 3,87 3,77 3,71 7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,60 3,57 3,53 3,49 3,44 3,34 3,27 8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,31 3,28 3,24 3,20 3,15 3,04 2,97 19,47 19,49 9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,10 3,07 3,03 2,99 2,94 2,83 2,76 10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,94 2,91 2,86 2,83 2,77 2,66 2,59 11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,82 2,79 2,74 2,70 2,65 2,53 2,46 12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,72 2,69 2,64 2,60 2,54 2,43 2,35 13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,63 2,60 2,55 2,51 2,46 2,34 2,26 14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,57 2,53 2,48 2,44 2,39 2,27 2,19 15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,51 2,48 2,42 2,38 2,33 2,20 2,12 16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,46 2,42 2,37 2,33 2,28 2,15 2,07 17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,41 2,38 2,33 2,29 2,23 2,10 2,02 18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,37 2,34 2,29 2,25 2,19 2,06 1,98 19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,34 2,31 2,26 2,21 2,16 2,03 1,94 20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,31 2,28 2,22 2,18 2,12 1,99 1,91 21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,28 2,25 2,20 2,16 2,10 1,96 1,88 22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,26 2,23 2,17 2,13 2,07 1,94 1,85 23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,24 2,20 2,15 2,11 2,05 1,91 1,82 24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,22 2,18 2,13 2,09 2,03 1,89 1,80 25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,20 2,16 2,11 2,07 2,01 1,87 1,78 26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,18 2,15 2,09 2,05 1,99 1,85 1,76 27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,17 2,13 2,08 2,04 1,97 1,84 1,74 28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,15 2,12 2,06 2,02 1,96 1,82 1,73 29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,14 2,10 2,05 2,01 1,94 1,81 1,71 30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,13 2,09 2,04 1,99 1,93 1,79 1,70 31 4,16 3,30 2,91 2,68 2,52 2,41 2,32 2,25 2,20 2,15 2,11 2,08 2,03 1,98 1,92 1,78 1,68 32 4,15 3,29 2,90 2,67 2,51 2,40 2,31 2,24 2,19 2,14 2,10 2,07 2,01 1,97 1,91 1,77 1,67 33 4,14 3,28 2,89 2,66 2,50 2,39 2,30 2,23 2,18 2,13 2,09 2,06 2,00 1,96 1,90 1,76 1,66 34 4,13 3,28 2,88 2,65 2,49 2,38 2,29 2,23 2,17 2,12 2,08 2,05 1,99 1,95 1,89 1,75 1,65 35 4,12 3,27 2,87 2,64 2,49 2,37 2,29 2,22 2,16 2,11 2,07 2,04 1,99 1,94 1,88 1,74 1,63 36 4,11 3,26 2,87 2,63 2,48 2,36 2,28 2,21 2,15 2,11 2,07 2,03 1,98 1,93 1,87 1,73 1,62 37 4,11 3,25 2,86 2,63 2,47 2,36 2,27 2,20 2,14 2,10 2,06 2,02 1,97 1,93 1,86 1,72 1,62 38 4,10 3,24 2,85 2,62 2,46 2,35 2,26 2,19 2,14 2,09 2,05 2,02 1,96 1,92 1,85 1,71 1,61 39 4,09 3,24 2,85 2,61 2,46 2,34 2,26 2,19 2,13 2,08 2,04 2,01 1,95 1,91 1,85 1,70 1,60 40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,04 2,00 1,95 1,90 1,84 1,69 1,59 41 4,08 3,23 2,83 2,60 2,44 2,33 2,24 2,17 2,12 2,07 2,03 2,00 1,94 1,90 1,83 1,69 1,58 42 4,07 3,22 2,83 2,59 2,44 2,32 2,24 2,17 2,11 2,06 2,03 1,99 1,94 1,89 1,83 1,68 1,57 Derechos de autor en trámite Página 157 de 157 Uso académico exclusivo, prohibida su reproducción sin consentimiento del autor