EVALUACIÓN EN APRENDIZAJE Jesús González y Eduardo Morales Significancia Estadística 27/08/2013 03:04:51 p. m. En estadística, se dice que un resultado es estadísticamente significante, cuando no es posible que se presente por mera casualidad No se refiere a que se trata de algo “importante” La cantidad de evidencia requerida para aceptar que un evento no ocurrió por mera casualidad se conoce como “nivel de significancia” o “p-value” 2 Hipótesis Nula Una hipótesis que se puede “falsificar” utilizando una prueba con datos observados Significancia Estadística Se establece una hipótesis nula Recolectamos datos Calculamos una medida de qué tan probables son los datos asumiendo que la hipótesis nula es verdadera Si los datos son muy improbables Generalmente datos que se observan menos del 5% de las veces que se hace el experimento Se concluye que la hipótesis nula es falsa 27/08/2013 03:04:51 p. m. 3 Ejemplo Significancia Estadística 27/08/2013 03:04:51 p. m. Si creemos que cierta medicina reduce la posibilidad de tener un ataque cardiaco Hipótesis nula Esta medicina no reduce la posibilidad de tener un ataque cardiaco 4 Prueba estadística de hipótesis de Fisher (enfoque tradicional) Significancia Estadística p-value Es la probabilidad condicional sobre la hipótesis nula de los datos observados (o los datos más extremos) Si p-value es pequeño La hipótesis nula es falsa ó pudo ocurrir un evento no común 27/08/2013 03:04:51 p. m. 5 Prueba estadística de hipótesis de Neyman Pearson (enfoque frecuentista) Significancia Estadística Requiere definir una hipótesis nula y otra alternativa Estudia las propiedades de muestreo repetido del proceso La probabilidad de decidir rechazar la hipótesis nula cuando en realidad es verdadera y no debería ser rechazada Falso Positivo ó Error Tipo I La probabilidad de decidir aceptar la hipótesis nula cuando en realidad es falsa Falso Negativo ó Error Tipo II 27/08/2013 03:04:51 p. m. 6 Significancia Estadística 27/08/2013 03:04:51 p. m. El nivel de significancia de una prueba lo definimos como La probabilidad de erróneamente rechazar la hipótesis nula no sea mayor que la probabilidad establecida 7 Es un estimado de un intervalo para un parámetro de población Intervalos de Confianza En lugar de estimar el parámetro con un solo valor Se estima un intervalo que incluya al parámetro Los intervalos de confianza se utilizan para indicar la certeza que podemos tener de un estimado El qué tan posible es que el intervalo contenga al parámetro que se determina por el nivel de confianza o coeficiente de confianza Al incrementar el nivel de confianza deseado se amplía el intervalo de confianza 27/08/2013 03:04:51 p. m. 8 Evaluación de hipótesis ¿Podemos usar la hipótesis? Motivación La evaluación de hipótesis es parte del aprendizaje en varios métodos Post-pruning en árboles de decisión para evitar el sobre-ajuste 27/08/2013 03:04:51 p. m. 9 ¿Cómo determinar qué hipótesis (método) usar con un problema en particular? Motivación Diagnóstico médico Evaluar diferentes métodos Comparar métodos La evaluación no es tan fácil 27/08/2013 03:04:51 p. m. 10 Evaluación sencilla con datos suficientes Evaluación difícil con pocos datos Sesgo en la estimación Motivación Sobreajuste Optimista para nuevos casos Probar con casos independientes al conjunto de entrenamiento Varianza en la estimación Aún si la evaluación se hace con un conjunto de prueba no sesgado Precisión medida varía de la precisión real Depende del conjunto particular de ejemplos Mientras más pequeño es el conjunto de ejemplos de prueba Más grande la varianza 27/08/2013 03:04:51 p. m. 11 Estimando la Precisión de una Hipótesis 27/08/2013 03:04:51 p. m. Queremos estimar la precisión para clasificar nuevas instancias También el error asociado a la estimación 12 Espacio de posibles instancias X Problema de aprendizaje (1) 27/08/2013 03:04:51 p. m. Se definen funciones objetivo sobre X Diferentes instancias tienen dif. frecuencias Modelo Distribución de probabilidad desconocida D de encontrar cada instancia en X D no dice nada acerca de si x es positivo o negativo 13 Tarea de aprendizaje Problema de aprendizaje (2) 27/08/2013 03:04:51 p. m. Aprender el concepto objetivo o función objetivo considerando un espacio de hipótesis H. Conjunto de entrenamiento Obtener instancias independientemente, de acuerdo a la distribución D, junto con su valor objetivo correcto f(x) 14 Ejemplo Problema de aprendizaje (3) Función objetivo: Personas proponsas a ser hospitalizadas para una cirugía de apéndice (Gente que llega a la sala de urgencias en un hospital) Espacio de instancias X: toda la gente, descrita por un conjunto de atributos Distribución de probabilidad D Para cada persona x, D dice la probabilidad de que x llegue a la sala de urgencias Función objetivo: f : X {0, 1} Clasifica a cada persona, entra a cirugía de apéndice o no 27/08/2013 03:04:51 p. m. 15 Preguntas 1. Problema de aprendizaje (4) 27/08/2013 03:04:51 p. m. Dada la hipótesis h y una muestra de datos con n ejemplos tomados aleatoriamente de acuerdo a D 1. 2. ¿Cuál es el mejor estimado de la precisión de h sobre futuras instancias tomadas bajo la misma distribución? ¿Cuál es el error probable en este estimado de precisión? 16 Error de muestra y error verdadero (1) Error de muestra 1 errors (h) º å d ( f (x), h(x)) n xÎS Error verdadero errorD (h) º Pr [ f (x) ¹ h(x)] xÎD 27/08/2013 03:04:51 p. m. 17 Error de muestra y error verdadero (2) 27/08/2013 03:04:51 p. m. Queremos conocer errorD(h) pero solo podemos obtener errorS(h) Pregunta ¿Qué tan buen estimador de errorD(h) es errorS(h)? 18 Intervalos de confianza para hipótesis con valores discretos (1) 27/08/2013 03:04:51 p. m. Estimar el error verdadero de una hipótesis con valores discretos h, con base al error observado sobre la muestra S S contiene n ejemplos tomados independientemente uno de otro e independientes de h de acuerdo a D n ≥ 30 Hipótesis h comete r errores sobre estos n ejemplos i.e., errorS(h) = r / n 19 Intervalos de confianza para hipótesis con valores discretos (2) Bajo estas condiciones, y basados en teoría de la estadística 1. 2. Dado que no se cuenta con más inf., el valor más probable para errorD(h) es errorS(h) Con aprox. 95% de probabilidad, el error verdadero errorD(h) cae en el intervalo errorS(h) ±1.96 27/08/2013 03:04:51 p. m. errorS(h)(1- errorS(h)) n 20 Intervalos de confianza para hipótesis con valores discretos (3) 27/08/2013 03:04:51 p. m. Ejemplo n = 40, r = 12, errorS(h) = 12 / 40 = 0.3 Pero errorS(h) no es un estimador perfecto de errorD(h) Dif. resultados en dif. experimentos Aprox. para 95% de los experimentos, el intervalo calculado contiene al error verdadero Intervalo de confianza del 95% 0.30 ± (1.96 * 0.07) = 0.30 ± 0.14 21 Para otros niveles de confianza Intervalos de confianza para hipótesis con valores discretos (4) errorS(h) ± zN errorS(h)(1- errorS(h)) n Valores de ZN para intervalos de confianza de dos lados N% Nivel de Confianza N% 50% 68% 80% 90% 95% 98% 99% ReglaZde aplica1.00 la fórmula, ≥ 30: 1.96 Constante 0.67 1.28 n1.64 N: cuándo 2.33 2.58 n´ errorS(h)(1- errorS(h)) ³ 5 27/08/2013 03:04:51 p. m. 22 Hipótesis h1, S1, n1 ejemplos tomados aleatoriamente bajo D Diferencia de error de dos hipótesis (1) Hipótesis h2, S2 (indep. de S1), n2 ejemplos tomados aleatoriamente bajo D Estimar diferencia entre errores verdaderos entre h1y h2 d º errorD (h1 ) - errorD (h2 ) Estimador: d̂ º errorS1 (h1 ) - errorS2 (h2 ) 27/08/2013 03:04:51 p. m. 23 Para n1 y n2 ≥ 30, errorS(h1) y errorS(h2) siguen distribuciones aprox. normal Diferencia de error de dos hipótesis (2) La dif. de 2 dist. normales también es una dist. normal d̂ también sigue una distribución aprox. normal con media d La varianza de la distribución es la suma de las varianzas de errorS(h1) y errorS(h2) errorS1 (h1 )(1- errorS1 (h1 )) errorS2 (h2 )(1- errorS2 (h2 )) s » + n1 n2 2 d̂ 27/08/2013 03:04:51 p. m. 24 Diferencia de error de dos hipótesis (3) Utilizando la varianza aproximada, un estimado del N% intervalo de confianza para d es: d̂ ± ZN errorS1 (h1 )(1- errorS1 (h1 )) errorS2 (h2 )(1- errorS2 (h2 )) + n1 n2 Si se trabaja con la misma muestra S: d̂ º errorS(h1 )- errorS(h2 ) 27/08/2013 03:04:51 p. m. 25 Comparación de Algoritmos de Aprendizaje (1) 27/08/2013 03:04:51 p. m. Comparar los algoritmos LA y LB en lugar de 2 hipótesis específicas ¿Qué prueba hacemos? ¿Cómo sabemos que la diferencia es estadísticamente significativa? 26 Comparación de Algoritmos de Aprendizaje (2) ¿Cuál de los 2 métodos es mejor en promedio para una función objetivo en particular? Sobre los conjuntos de entrenamiento de tamaño n tomados bajo D Valor esperado de la diferencia de los errores entre los algoritmos LA y LB E [errorD (LA (S)) - errorD (LB (S))] SÌD 27/08/2013 03:04:51 p. m. 27 En realidad solo se cuenta con un conjunto limitado de ejemplos D0 Comparación de Algoritmos de Aprendizaje (3) Dividir D0 en un conjunto de entrenamiento S0 y un conjunto de prueba T0 Entonces medimos: errorT0 (LA (S0 )) - errorT0 (LB (S0 )) Podemos mejorar esta medida creando particiones disjuntas (k-fold CV) y estimar: E [errorD (LA (S)) - errorD (LB (S))] SÌD0 S es una muestra de D0 de tamaño k -1 | D0 | k 27/08/2013 03:04:51 p. m. 28 Procedimiento Comparación de Algoritmos de Aprendizaje (4) 1. Particionar los datos D0 en k subconjuntos disjuntos T1, T2, …, Tk del mismo tamaño, tamaño al menos de 30 Para i de 1 a k 2. 1. 3. Usar Ti como conjunto de prueba y el resto para el conjunto de entrenamiento Si 1. Si {D0 - Ti} 2. hA LA(Si) 3. hB LB(Si) 4. δi errorTi(hA) – errorTi(hB) Regresar el valor d , donde 1 k d º ådi k i=1 27/08/2013 03:04:51 p. m. 29 Comparación de Algoritmos de Aprendizaje (5) El intervalo de confianza del N% aprox. para estimar E [errorD LA (S)) - errorD (LB (S))] SÌD0 Usando d está dado por (prueba t-test) d ± t N,k-1Sd k 1 2 Sd º ( d d ) å i k(k -1) i=1 27/08/2013 03:04:51 p. m. 30 Comparación de Algoritmos de Aprendizaje (6) 27/08/2013 03:04:51 p. m. Constante tN,k-1 tiene 2 parámetros N, nivel de confianza k-1, número de grados de libertad Número de eventos aleatorios v, independientes para producir el valor de d Grados de libertad es k-1 Si k ∞, tN,k-1 se acerca a zN 31 Comparación de Algoritmos de Aprendizaje (7) 27/08/2013 03:04:51 p. m. La comparación se hace con conjuntos de prueba idénticos Al comparar hipótesis no es necesario Se denominan pruebas apareadas (paired tests) Producen intervalos de confianza más ajustados Diferencias entre errores en prueba apareada se deben a diferencias entre hipótesis Al usar conjuntos de prueba separados, diferencias en los errores de muestra parcialmente se atribuyen a diferencias en la elección de las dos muestras 32 Comparación de Algoritmos de Aprendizaje (8) 27/08/2013 03:04:51 p. m. 33 t-test Prueba t-test (1) 27/08/2013 03:04:51 p. m. ¿Las medias de 2 grupos son estadísticamente diferentes una de la otra? ¿La diferencia se debe a errores de muestreo o casualidad? Para comparar las medias de 2 grupos 34 Factores para determinar si una dif. entre 2 grupos se debe a verdadera dif. o a un error debido a la casualidad Prueba t-test (2) 27/08/2013 03:04:51 p. m. Mientras más grande sea la muestra, es menos posible que la dif. se deba a errores de muestreo o casualidad A más grande sea la dif. entre las 2 medidas, menos posible que la dif. se deba a errores de muestreo Mientras más pequeña sea la varianza entre los participantes, es menos posible que la dif. haya sido creada por errores de muestreo 35 A. Hipótesis nula H0 : μ1=μ2 B. Hipótesis alternativa HA : μ1≠μ2 Prueba t-test (3) C. Las medias son iguales que en el caso B. Pareciera que: 27/08/2013 03:04:51 p. m. HA : μ1≠μ2 Pero sería un error H0 : μ1=μ2 es lo correcto ¿Cuantas veces de 100 estaríamos de acuerdo en equivocarnos? 36 Prueba t-test (4) http://www.socialresearchmethods.net/kb/stat_t.php 27/08/2013 03:04:51 p. m. 37 Nivel Alfa (α) Prueba t-test (5) 27/08/2013 03:04:51 p. m. Representa el número de veces de 100 que aceptamos rechazar la hipotesís nula aún cuando es correcta. Si α es 0.05, 5 veces de 100 rechazaremos la hipótesis nula de manera incorrecta Esas 5 veces, ambas medias vendrán de la misma población (Caso III) Pero 95 veces de 100, tendremos resultados correctos porque es más probable que vengan de poblaciones diferentes (Caso II) 38 t-critical value, se encuentra en la tabla t-statistic value, el valor final Si t-statistic > t-critical, se rechaza la hipótesis nula, se acepta la hipótesis alterna Prueba t-test (6) 27/08/2013 03:04:51 p. m. Si t-statistic < t-critical, se retiene la hipótesis nula 39 p-vales Prueba t-test (7) 27/08/2013 03:04:51 p. m. En lugar de comparar los valores t-critical y tstatistical para determinar la diferencia significativa Se pueden comparar nivel αy p-values En la figura, el nivel αes el área bajo la curva a la derecha del punto t-critical positivo y a la izquierda del punto t-critical negativo (todo lo gris y azul claro). Esto junto es el nivel alfa, 0.05 El p-value es el área bajo la curva a la derecha del tstatistic púrpura más el área a la izquierda del tstatistic púrpura (solo el azul claro). 40 Prueba t-test (8) 27/08/2013 03:04:51 p. m. Si p-value < α, se acepta la hipótesis alterna Si p-value >α , se retiene la hipótesis nula 41 Evaluación de significancia Obtener el t-value Calcular los grados de libertad DF = N – 1 Prueba t-test (9) Checar en la tabla Nivel de significancia (0.05, 0.01, 0.001) Valor crítico de t Si valor observado > valor crítico rechazar H0 Si valor observado < valor crítico no rechazar H0 Si la tabla no tiene el número de grados de libertad Usar el siguiente número menor al real (para 32 usar 30) 27/08/2013 03:04:51 p. m. 42 Prueba t-test (10) 27/08/2013 03:04:51 p. m. Cálculo en algunas herramientas Weka http://depts.alverno.edu/nsmt/stats.htm 43 Analysis Of Variance (ANOVA) Conocida también como f-test ANOVA (1) Relacionada con la t-test t-test mide la diferencia entre las medias de 2 grupos ANOVA prueba la dif. entre las medias de 2 o mas grupos 27/08/2013 03:04:51 p. m. 44 ANOVA de 1-lado o de factor simple Prueba dif. entre grupos que se clasifican solo sobre una variable independiente También hay una prueba ANOVA para múltiples variables independientes Ventaja de ANOVA sobre t-test ANOVA (2) Reduce probabilidad de un error tipo-I Muchas comparaciones entre 2 grupos Desventaja de ANOVA Se pierde especificidad f dice que hay dif. significante entre grupos, no dice cuáles grupos son significativamente diferentes entre sí 27/08/2013 03:04:51 p. m. 45 Hipótesis Nula ANOVA (3) Asunción de que no hay real diferencia entre grupos y cualquier diferencia (estadística) se debe a errores de muestreo. Un investigador trata de probar que esto no es cierto Error tipo I Cuando el investigador rechaza la hipótesis nula aún cuando era cierta 27/08/2013 03:04:51 p. m. 46 ANOVA (4) 27/08/2013 03:04:51 p. m. Material de Referencia http://org.elon.edu/econ/sac/anova.htm 47