Diseño de experimentos Hugo Alexer Pérez Vicente Recuerdo que… Conceptos estadísticos Diseño de experimentos - Hugo Alexer Pérez Vicente Población y muestra Población • es una colección de posibles individuos, especímenes, objetos o medidas de interés sobre los que se hace un estudio. Diseño de experimentos - Hugo Alexer Pérez Vicente Muestra • es un subconjunto representativo de la población (elementos, objetos, etcétera) obtenidos bajo un método específico sobre el que se podrán hacer afirmaciones acerca de los parámetros de la población. Parámetros y estadísticos Población (toda la producción del mes) 𝜇 =? 𝜎 =? Aleatoriamente PARÁMETROS (siempre desconocidos) Muestra (representativa de la producción del mes) 𝑋, 𝑆 ESTADÍSTICOS (conocidos) Inferencia Diseño de experimentos - Hugo Alexer Pérez Vicente Variables aleatorias Una variable es la característica numérica de interés del experimentador que se mide en los resultados posibles de un estudio. Para un conjunto de todas las respuestas posibles de algún fenómeno aleatorio, una variable aleatoria es cualquier regla que asocie un número con cada respuesta. 2 1 0 -1 -2 Diseño de experimentos - Hugo Alexer Pérez Vicente Variables aleatorias • Discretas: si el conjunto de sus valores posibles (i.e. que tiene un número finito de elementos o si sus elementos pueden listarse en secuencia). • Continuas: si el conjunto de sus valores posibles es un intervalo completo de números (i.e. si para cada A<B, cualquier número 𝑦𝑗 entre A y B es posible). Diseño de experimentos - Hugo Alexer Pérez Vicente Distribuciones de probabilidad La distribución de probabilidad o distribución de una variable aleatoria 𝑦 relaciona el conjunto de valores posible de 𝑦 (rango de 𝑦), con la probabilidad asociada a cada uno de estos valores y los representa a través de una tabla o por medio de una función planteada como una fórmula. Cuando 𝑦 es discreta, es común referirse a su distribución como la función masa de probabilidad de 𝑦. Diseño de experimentos - Hugo Alexer Pérez Vicente Cuando 𝑦 es continua, hablamos de la función de densidad de probabilidad de 𝑦. Distribuciones de probabilidad Diseño de experimentos - Hugo Alexer Pérez Vicente Resumen de propiedades • Variable discreta 𝑦 0 ≤ 𝑝 𝑦𝑗 ≤ 1 ∀𝑗 P 𝑌 = 𝑦𝑗 = 𝑝 𝑦𝑗 ∀𝑗 𝑝 𝑦𝑗 = 1 ∀𝑦𝑗 • Variable continua 𝑦 0≤𝑓 𝑦 𝑏 𝑃 𝑎≤𝑦≤𝑏 = ∞ 𝑓 𝑦 𝑑𝑦 𝑎 𝑓 𝑦 𝑑𝑦 = 1 −∞ Diseño de experimentos - Hugo Alexer Pérez Vicente Distribuciones de muestreo • Un estadístico se define como cualquier función de las observaciones de una muestra que no contiene parámetros desconocidos (i.e. media muestral y varianza muestral). 𝑦= 𝑆2 = 𝑛 𝑖=1 𝑦𝑖 𝑛 𝑛 2 𝑖=1(𝑦𝑖 −𝑦) 𝑛−1 • A la distribución de probabilidad de un estadístico se le llama distribución de muestreo. Diseño de experimentos - Hugo Alexer Pérez Vicente Distribución normal • La distribución normal es una de las distribuciones de muestreo más utilizadas. • Caracterizada por una media poblacional 𝜇 y una varianza poblacional 𝜎 2 . • Estos parámetros se aproximan por los estadísticos 𝑦 y 𝑆2. Diseño de experimentos - Hugo Alexer Pérez Vicente Distribución normal • Si 𝑦 es una variable aleatoria normal, la distribución de probabilidad de 𝑦 es: 𝑓 𝑦 = 1 𝜎 2𝜋 1 (𝑦−𝜇) 2 − 2 𝜎 𝑒 −∞<𝑦 <∞ Donde 𝜇 es la media de la distribución y 𝜎 es la desviación estándar. Diseño de experimentos - Hugo Alexer Pérez Vicente Distribución normal estándar • Caso especial de la distribución normal con 𝜇 = 0 y 𝜎2 = 1 • Se logra a través de la siguiente estandarización para la variable 𝑦 distribuida normalmente: 𝑦−𝜇 𝑧= 𝜎 la cual sigue una distribución normal estándar denotada 𝑧~𝑁 0,1 Diseño de experimentos - Hugo Alexer Pérez Vicente Regla 68-95-99.7 Diseño de experimentos - Hugo Alexer Pérez Vicente Teorema del límite central Muchos datos en realidad siguen una distribución normal y los que no, si se tienen suficientes datos, se pueden “agregar” para que los datos agregados sigan una distribución aproximadamente normal (Teorema Central del Límite o Teorema del Límite Central). • Sean 𝑋1 , 𝑋2 , … , 𝑋𝑛 variables aleatorias independientes e idénticamente distribuidas con una distribución no especificada y que tienen media μ y varianza 𝜎 2 . • La media muestral 𝑋 tiene una distribución que tiende a la normal conforme el tamaño de la muestra tiende a infinito. 2 𝜎 𝑋 ≈ 𝑁 𝜇, 𝑛 cuando 𝑛 → ∞ Diseño de experimentos - Hugo Alexer Pérez Vicente Teorema del límite central v2 • Si 𝑦1 , 𝑦2 , … , 𝑦𝑛 son 𝑛 variables aleatorias independientes con una distribución idéntica con media μ y varianza 𝜎 2 y 𝑥 = 𝑦1 + 𝑦2 + … , +𝑦𝑛 entonces la distribución de: 𝑧𝑛 = 𝑥 − 𝑛𝜇 𝑛𝜎 2 Tiende a la distribución 𝑁 0,1 cuando 𝑛 tiende a infinito. Diseño de experimentos - Hugo Alexer Pérez Vicente Aplicación del teorema del límite central Problema 1. Los tiempos de servicio por auto, en un verificentro, son variables aleatorias independientes con media de 8 minutos y varianza 4. ¿Cuál es la probabilidad de que 35 autos sean verificados en menos de 4 horas? 𝑃 𝑋𝑖 < 240 = 𝑃 𝑥 − 𝑛𝜇 𝑛𝜎 2 < 240 − 35(8) 140 = 𝑃 𝑍 < −3.38 = 0.0004 Es altamente improbable que 35 autos sean verificados en menos de 4 horas. Diseño de experimentos - Hugo Alexer Pérez Vicente Puntos importantes • Frecuentemente se considera que el error de una experimento surge de manera aditiva de varias fuentes independientes; por consiguiente, la distribución normal se convierte en un modelo recomendable para el error experimental combinado. Diseño de experimentos - Hugo Alexer Pérez Vicente Puntos importantes • La distribución de muestreo de una estadística 𝜃 es la distribución de probabilidad de la misma que podría obtenerse si se tomaran repetidamente muestras, del mismo tamaño, provenientes de la misma población de interés. Diseño de experimentos - Hugo Alexer Pérez Vicente Distribución Χ2 Si 𝑧1 , 𝑧2 , … , 𝑧𝑛 son variables aleatorias que tienen una distribución normal e independiente con media 0 y varianza 1, entonces la variable aleatoria: 𝑥 = 𝑧12 + 𝑧22 + ⋯ + 𝑧𝑛2 Sigue la distribución ji-cuadrada con k grados de libertad con función de distribución 1 𝑓 𝑥 = 𝑥 𝑘 2 −1 𝑒 −𝑥 2 , 𝑥 > 0 𝑘 𝑘 2 2 Г 2 Diseño de experimentos - Hugo Alexer Pérez Vicente Diseño de experimentos - Hugo Alexer Pérez Vicente Distribución 𝑡 • Si 𝑧 y Χ2 son variables aleatorias independientes normal estándar y ji-cuadrada, respectivamente, la variable aleatoria: • Sigue la distribución t con k grados de libertad, denotada tk, y con una función de densidad: Diseño de experimentos - Hugo Alexer Pérez Vicente Diseño de experimentos - Hugo Alexer Pérez Vicente Distribución 𝐹 • Si Χ2u y Χ2v son dos variables aleatorias ji-cuadrada independientes con u y v grados de libertad, respectivamente entonces el cociente • Sigue la distribución F con u grados de libertad en el numerador y v grados de libertad en el denominador. La distribución de probabilidad de x=Fu,v es Diseño de experimentos - Hugo Alexer Pérez Vicente Distribución F de Fisher-Snedecor con u, v grados de libertad 1 0.9 0.8 0.7 0.6 u=2, v=4 0.5 u=5, v=8 u=14, v=16 0.4 0.3 0.2 0.1 0 0 5 Diseño de experimentos - Hugo Alexer Pérez Vicente 10 15 20 25 Algo más de distribuciones Elija una distribución de probabilidad de muestreo y graficar su función de densidad y su función de distribución acumulada en una hoja de cálculo. Problema: El tiempo que tardan los usuarios de un cajero automático es una variable aleatoria con media de dos minutos y desviación estándar 0.6 minutos. Encuentre la probabilidad de que el tiempo total que tarda en el cajero una muestra aleatoria de 50 clientes esté entre 90 y 112.5 minutos. Diseño de experimentos - Hugo Alexer Pérez Vicente Estimación puntual y por intervalo • Un estimador puntual de un parámetro desconocido es un estadístico que genera un valor numérico simple, que utiliza para hacer una estimación del valor del parámetro desconocido 𝜇→𝜇=𝑋 𝜎2 → 𝜎2 = 𝑆2 • La estimación por intervalo es una forma operativa de saber qué tan precisa es la estimación puntual y consiste en calcular un intervalo de confianza que indique un rango “donde puede estar el parámetro” con cierto nivel de seguridad o confianza. 𝑃 𝐿 ≤𝜃 ≤𝑈 =1−𝛼 Diseño de experimentos - Hugo Alexer Pérez Vicente Concepto de prueba estadística • Una hipótesis estadística es una afirmación sobre los valores de los parámetros de una población o proceso que es susceptible de probarse a partir de la información contenida en una muestra representativa que es obtenida de la población. • Ejemplos: “Este proceso produce menos de 8% de defectuosos” La media de la masa de las partes es de 23.5 gramos La mediana de la vida útil de los clips es de 140 deformaciones a la ruptura Diseño de experimentos - Hugo Alexer Pérez Vicente Concepto de prueba estadística • En un problema de prueba estadística, se consideran dos hipótesis estadísticas en contradicción Ejemplo: La media de la masa de las partes es de 23.5 gramos contra la media NO ES de 23.5 gramos El objetivo es decidir, basados en información muestral, cuál es la hipótesis correcta. Diseño de experimentos - Hugo Alexer Pérez Vicente Hipótesis nula vs hipótesis alternativa Hipótesis nula Hipótesis alternativa • Hipótesis inicialmente favorecida o que se cree inicialmente cierta. Se denota por 𝐻0 . • Ej. 𝐻0 : La media de la masa de las partes es de 23.5 gramos. • Hipótesis en contra de la hipótesis nula. Se denota por 𝐻𝑎 . • Ej. 𝐻𝑎 : La media de la masa de las partes no es de 23.5 gramos. Diseño de experimentos - Hugo Alexer Pérez Vicente La idea es inclinarnos hacia 𝐻𝑎 solamente si tenemos suficiente evidencia estadística en contra de 𝐻0 . Por convención se asocia 𝐻0 con el “no cambio” o con las condiciones actuales del sistema o proceso, por ejemplo, si se quiere probar que una variable controlable disminuye la media de tiempo de ciclo de un proceso, 𝐻0 se asocia con “la variable que no tuvo un efecto” lo cual quiere decir “la media del tiempo de ciclo permaneció igual”. Hay que conocer siempre 𝐻0 estadísticas. Diseño de experimentos - Hugo Alexer Pérez Vicente en las pruebas Procedimientos de prueba • Es una regla, basado en datos muestrales, para decidir si se debe rechazar 𝐻0 . • Un procedimiento de prueba específica por los siguientes: 1. Un estadístico de prueba • Una función de los datos muestrales (número calculado a partir de los datos) en el que se basará la decisión de rechazar o no rechazar 𝐻0 . 2. Una región de rechazo • El conjunto de todos los valores del estadístico de prueba para los que se rechazará 𝐻0 . Diseño de experimentos - Hugo Alexer Pérez Vicente Valor p / p-value • Ésta es una forma de reportar los resultados, es decir, la hipótesis nula se rechazó o no se rechazó a un nivel de significancia 𝛼 especificado. • Sin embargo, esto no da al investigador idea de si el valor calculado de la estadística de prueba estaba en la frontera de la región crítica o si estaba muy adentro de ésta. Para eliminar esta deficiencia se utiliza el p-value. Diseño de experimentos - Hugo Alexer Pérez Vicente Valor p / p-value El p-value se define como el mínimo valor del nivel de significación 𝛼 que llevaría a rechazar la hipótesis nula 𝐻0 . Diseño de experimentos - Hugo Alexer Pérez Vicente Riesgo de una decisión equivocada • Error tipo I: consiste en rechazar la hipótesis nula 𝐻0 cuando ésta es verdadera. • Error tipo II: consiste en no rechazar 𝐻0 cuando ésta es falsa. Diseño de experimentos - Hugo Alexer Pérez Vicente Un buen procedimiento • Para no tener errores del tipo anterior se requiere analizar toda la población (por ejemplo todas las partes producidas en todos los turnos), lo cual es impráctico. • Se buscan entonces procedimientos para los cuales cometer un error del tipo I o II tienen probabilidades pequeñas. Diseño de experimentos - Hugo Alexer Pérez Vicente Un buen procedimiento • Escoger una región de rechazo, probabilidades del error tipo I y tipo II. fija las • Estas probabilidades se denotan tradicionalmente por 𝛼 y 𝛽 respectivamente. Diseño de experimentos - Hugo Alexer Pérez Vicente Ejemplo Un ingeniero desea comparar la resistencia de una fórmula modificada de cemento a la cual se le agrega látex durante el mezclado. Se tienen diez observaciones de la resistencia de la fórmula modificada y otras diez para la fórmula usual. Diseño de experimentos - Hugo Alexer Pérez Vicente j 1 2 3 4 5 6 7 8 9 10 mezcla modificada mezcla sin modificar kgf/cm 2 (y 1j ) kgf/cm 2 (y2 j ) 16.85 16.40 17.21 16.35 16.52 17.04 16.96 17.15 16.59 16.57 17.50 17.63 18.25 18.00 17.86 17.75 18.22 17.90 17.96 18.15 Prueba 𝑡 de dos muestras 𝐻0 : 𝜇1 = 𝜇2 𝐻𝑎 : 𝜇1 ≠ 𝜇2 Dado un nivel de error 𝛼 (digamos 0.05) Rechazar 𝐻0 si 𝑡0 > 𝑡𝛼,𝑛 +𝑛 −2 2 2 1 𝑡0 = 𝑦1 −𝑦2 𝑆𝑝 1 1 + 𝑛1 𝑛2 2 2 𝑛 − 1 𝑆 + (𝑛 − 1)𝑆 1 2 1 2 2 𝑆𝑝 = 𝑛1 + 𝑛2 − 2 Diseño de experimentos - Hugo Alexer Pérez Vicente Cálculos 𝑆𝑝2 10 − 1 (0.100) + (10 − 1)(0.061) = 10 + 10 − 2 𝑆𝑝2 = 0.081 𝑆𝑝 = 0.284 𝑡0 = Diseño de experimentos - Hugo Alexer Pérez Vicente 16.76 − 17.92 1 1 0.284 + 10 10 = −9.13 Cálculos 𝑡𝛼,𝑛 2 1 +𝑛2 −2 = 𝑡0.05 2 ,10+10−2 = 𝑡0.025,18 = 2.101 MS Excel: DISTR.T.INV(0.05,18)=2.10092204 Debido a que −9.13 > 𝑡𝛼 = 2.101 Decisión: Se rechaza 𝐻0 , es decir, se concluye que las fuerzas de tensión de adhesión promedio de las dos formulaciones son diferentes. Diseño de experimentos - Hugo Alexer Pérez Vicente 2.101 -2.101 Región crítica Diseño de experimentos - Hugo Alexer Pérez Vicente Otro criterio más práctico 𝑡0 p-value = DISTR.T.2C(9.13,18)= 3.55567E-08 Diseño de experimentos - Hugo Alexer Pérez Vicente Referencias • • • • Aguirre, V. et al. (2012). Fundamentos de probabilidad y estadística. México: Jit Press. Allen, T. (2010). Introduction to Engineering Statistics and Lean Sigma. EUA: Springer. Cabrera R., M. (2008). Apuntes de curso. México: U. Autónoma de Nuevo León. Montgomery, D. (2007). Diseño y análisis de experimentos. México: Limusa Wiley. Diseño de experimentos - Hugo Alexer Pérez Vicente