Inferencia Estadística

Anuncio
EVALUACIÓN EN
APRENDIZAJE
Jesús González y Eduardo Morales
Significancia
Estadística
27/08/2013 03:04:51 p. m.
 En estadística, se dice que un resultado es
estadísticamente significante, cuando no es posible
que se presente por mera casualidad
 No se refiere a que se trata de algo “importante”
 La cantidad de evidencia requerida para aceptar
que un evento no ocurrió por mera casualidad se
conoce como “nivel de significancia” o “p-value”
2
 Hipótesis Nula
 Una hipótesis que se puede “falsificar” utilizando
una prueba con datos observados
Significancia
Estadística
 Se establece una hipótesis nula
 Recolectamos datos
 Calculamos una medida de qué tan probables son los
datos asumiendo que la hipótesis nula es verdadera
 Si los datos son muy improbables
 Generalmente datos que se observan menos del 5%
de las veces que se hace el experimento
 Se concluye que la hipótesis nula es falsa
27/08/2013 03:04:51 p. m.
3
 Ejemplo
Significancia
Estadística
27/08/2013 03:04:51 p. m.
 Si creemos que cierta medicina reduce la
posibilidad de tener un ataque cardiaco
 Hipótesis nula
 Esta medicina no reduce la posibilidad de tener un
ataque cardiaco
4
 Prueba estadística de hipótesis de Fisher (enfoque
tradicional)
Significancia
Estadística
 p-value
 Es la probabilidad condicional sobre la hipótesis
nula de los datos observados (o los datos más
extremos)
 Si p-value es pequeño
 La hipótesis nula es falsa ó pudo ocurrir un evento no
común
27/08/2013 03:04:51 p. m.
5
 Prueba estadística de hipótesis de Neyman Pearson
(enfoque frecuentista)
Significancia
Estadística
 Requiere definir una hipótesis nula y otra
alternativa
 Estudia las propiedades de muestreo repetido del
proceso
 La probabilidad de decidir rechazar la hipótesis nula
cuando en realidad es verdadera y no debería ser
rechazada
 Falso Positivo ó Error Tipo I
 La probabilidad de decidir aceptar la hipótesis nula
cuando en realidad es falsa
 Falso Negativo ó Error Tipo II
27/08/2013 03:04:51 p. m.
6
Significancia
Estadística
27/08/2013 03:04:51 p. m.
 El nivel de significancia de una prueba lo definimos
como
 La probabilidad de erróneamente rechazar la
hipótesis nula no sea mayor que la probabilidad
establecida
7
 Es un estimado de un intervalo para un parámetro
de población
Intervalos de
Confianza
 En lugar de estimar el parámetro con un solo valor
 Se estima un intervalo que incluya al parámetro
 Los intervalos de confianza se utilizan para indicar
la certeza que podemos tener de un estimado
 El qué tan posible es que el intervalo contenga al
parámetro que se determina por el nivel de
confianza o coeficiente de confianza
 Al incrementar el nivel de confianza deseado se
amplía el intervalo de confianza
27/08/2013 03:04:51 p. m.
8
 Evaluación de hipótesis
 ¿Podemos usar la hipótesis?
Motivación
 La evaluación de hipótesis es parte del aprendizaje
en varios métodos
 Post-pruning en árboles de decisión para evitar el
sobre-ajuste
27/08/2013 03:04:51 p. m.
9
 ¿Cómo determinar qué hipótesis (método) usar con
un problema en particular?
Motivación
 Diagnóstico médico
 Evaluar diferentes métodos
 Comparar métodos
 La evaluación no es tan fácil
27/08/2013 03:04:51 p. m.
10
 Evaluación sencilla con datos suficientes
 Evaluación difícil con pocos datos
 Sesgo en la estimación
Motivación
 Sobreajuste
 Optimista para nuevos casos
 Probar con casos independientes al conjunto de
entrenamiento
 Varianza en la estimación
 Aún si la evaluación se hace con un conjunto de
prueba no sesgado
 Precisión medida varía de la precisión real
 Depende del conjunto particular de ejemplos
 Mientras más pequeño es el conjunto de ejemplos de
prueba
 Más grande la varianza
27/08/2013 03:04:51 p. m.
11
Estimando la
Precisión de
una
Hipótesis
27/08/2013 03:04:51 p. m.
 Queremos estimar la precisión para clasificar
nuevas instancias
 También el error asociado a la estimación
12
 Espacio de posibles instancias X
Problema de
aprendizaje
(1)
27/08/2013 03:04:51 p. m.
 Se definen funciones objetivo sobre X
 Diferentes instancias tienen dif. frecuencias
 Modelo
 Distribución de probabilidad desconocida D de
encontrar cada instancia en X
 D no dice nada acerca de si x es positivo o negativo
13
 Tarea de aprendizaje
Problema de
aprendizaje
(2)
27/08/2013 03:04:51 p. m.
 Aprender el concepto objetivo o función objetivo
considerando un espacio de hipótesis H.
 Conjunto de entrenamiento
 Obtener instancias independientemente, de acuerdo
a la distribución D, junto con su valor objetivo
correcto f(x)
14
 Ejemplo
Problema de
aprendizaje
(3)
 Función objetivo: Personas proponsas a ser
hospitalizadas para una cirugía de apéndice (Gente
que llega a la sala de urgencias en un hospital)
 Espacio de instancias X: toda la gente, descrita por
un conjunto de atributos
 Distribución de probabilidad D
 Para cada persona x, D dice la probabilidad de que x
llegue a la sala de urgencias
 Función objetivo: f : X  {0, 1}
 Clasifica a cada persona, entra a cirugía de apéndice
o no
27/08/2013 03:04:51 p. m.
15
 Preguntas
1.
Problema de
aprendizaje
(4)
27/08/2013 03:04:51 p. m.
Dada la hipótesis h y una muestra de datos con n
ejemplos tomados aleatoriamente de acuerdo a
D
1.
2.
¿Cuál es el mejor estimado de la precisión de h sobre
futuras instancias tomadas bajo la misma
distribución?
¿Cuál es el error probable en este estimado de
precisión?
16
Error de
muestra y
error
verdadero (1)
 Error de muestra
1
errors (h) º å d ( f (x), h(x))
n xÎS
 Error verdadero
errorD (h) º Pr [ f (x) ¹ h(x)]
xÎD
27/08/2013 03:04:51 p. m.
17
Error de
muestra y
error
verdadero (2)
27/08/2013 03:04:51 p. m.
 Queremos conocer errorD(h) pero solo podemos
obtener errorS(h)
 Pregunta
 ¿Qué tan buen estimador de errorD(h) es errorS(h)?
18
Intervalos de
confianza
para
hipótesis con
valores
discretos (1)
27/08/2013 03:04:51 p. m.
 Estimar el error verdadero de una hipótesis con
valores discretos h, con base al error observado
sobre la muestra S
 S contiene n ejemplos tomados
independientemente uno de otro e independientes
de h de acuerdo a D
 n ≥ 30
 Hipótesis h comete r errores sobre estos n ejemplos
 i.e., errorS(h) = r / n
19
Intervalos de
confianza
para
hipótesis con
valores
discretos (2)
 Bajo estas condiciones, y basados en teoría de la
estadística
1.
2.
Dado que no se cuenta con más inf., el valor más
probable para errorD(h) es errorS(h)
Con aprox. 95% de probabilidad, el error
verdadero errorD(h) cae en el intervalo
errorS(h) ±1.96
27/08/2013 03:04:51 p. m.
errorS(h)(1- errorS(h))
n
20
Intervalos de
confianza
para
hipótesis con
valores
discretos (3)
27/08/2013 03:04:51 p. m.
 Ejemplo
 n = 40, r = 12, errorS(h) = 12 / 40 = 0.3
 Pero errorS(h) no es un estimador perfecto de
errorD(h)
 Dif. resultados en dif. experimentos
 Aprox. para 95% de los experimentos, el intervalo
calculado contiene al error verdadero
 Intervalo de confianza del 95%
 0.30 ± (1.96 * 0.07) = 0.30 ± 0.14
21
 Para otros niveles de confianza
Intervalos de
confianza
para
hipótesis con
valores
discretos (4)
errorS(h) ± zN
errorS(h)(1- errorS(h))
n
 Valores de ZN para intervalos de confianza de dos
lados N%
Nivel de
Confianza N%
50%
68% 80% 90% 95% 98% 99%
 ReglaZde
aplica1.00
la fórmula,
≥ 30: 1.96
Constante
0.67
1.28 n1.64
N: cuándo
2.33
2.58
n´ errorS(h)(1- errorS(h)) ³ 5
27/08/2013 03:04:51 p. m.
22
 Hipótesis h1, S1, n1 ejemplos tomados
aleatoriamente bajo D
Diferencia de
error de dos
hipótesis (1)
 Hipótesis h2, S2 (indep. de S1), n2 ejemplos tomados
aleatoriamente bajo D
 Estimar diferencia entre errores verdaderos entre
h1y h2
d º errorD (h1 ) - errorD (h2 )
 Estimador:
d̂ º errorS1 (h1 ) - errorS2 (h2 )
27/08/2013 03:04:51 p. m.
23
 Para n1 y n2 ≥ 30, errorS(h1) y errorS(h2) siguen
distribuciones aprox. normal
Diferencia de
error de dos
hipótesis (2)
 La dif. de 2 dist. normales también es una dist.
normal  d̂ también sigue una distribución aprox.
normal con media d
 La varianza de la distribución es la suma de las
varianzas de errorS(h1) y errorS(h2)
errorS1 (h1 )(1- errorS1 (h1 )) errorS2 (h2 )(1- errorS2 (h2 ))
s »
+
n1
n2
2
d̂
27/08/2013 03:04:51 p. m.
24
Diferencia de
error de dos
hipótesis (3)
 Utilizando la varianza aproximada, un estimado del
N% intervalo de confianza para d es:
d̂ ± ZN
errorS1 (h1 )(1- errorS1 (h1 )) errorS2 (h2 )(1- errorS2 (h2 ))
+
n1
n2
 Si se trabaja con la misma muestra S:
d̂ º errorS(h1 )- errorS(h2 )
27/08/2013 03:04:51 p. m.
25
Comparación
de
Algoritmos
de
Aprendizaje
(1)
27/08/2013 03:04:51 p. m.
 Comparar los algoritmos LA y LB en lugar de 2
hipótesis específicas
 ¿Qué prueba hacemos?
 ¿Cómo sabemos que la diferencia es
estadísticamente significativa?
26
Comparación
de
Algoritmos
de
Aprendizaje
(2)
 ¿Cuál de los 2 métodos es mejor en promedio para
una función objetivo en particular?
 Sobre los conjuntos de entrenamiento de tamaño n
tomados bajo D
 Valor esperado de la diferencia de los errores entre
los algoritmos LA y LB
E [errorD (LA (S)) - errorD (LB (S))]
SÌD
27/08/2013 03:04:51 p. m.
27
 En realidad solo se cuenta con un conjunto limitado
de ejemplos D0
Comparación
de
Algoritmos
de
Aprendizaje
(3)
 Dividir D0 en un conjunto de entrenamiento S0 y un
conjunto de prueba T0
 Entonces medimos:
errorT0 (LA (S0 )) - errorT0 (LB (S0 ))
 Podemos mejorar esta medida creando particiones
disjuntas (k-fold CV) y estimar:
E [errorD (LA (S)) - errorD (LB (S))]
SÌD0
 S es una muestra de D0 de tamaño
k -1
| D0 |
k
27/08/2013 03:04:51 p. m.
28
 Procedimiento
Comparación
de
Algoritmos
de
Aprendizaje
(4)
1.
Particionar los datos D0 en k subconjuntos
disjuntos T1, T2, …, Tk del mismo tamaño, tamaño
al menos de 30
Para i de 1 a k
2.
1.
3.
Usar Ti como conjunto de prueba y el resto para el
conjunto de entrenamiento Si
1.
Si  {D0 - Ti}
2.
hA  LA(Si)
3.
hB  LB(Si)
4.
δi  errorTi(hA) – errorTi(hB)
Regresar el valor d , donde
1 k
d º ådi
k i=1
27/08/2013 03:04:51 p. m.
29
Comparación
de
Algoritmos
de
Aprendizaje
(5)
 El intervalo de confianza del N% aprox. para
estimar
E [errorD LA (S)) - errorD (LB (S))]
SÌD0
 Usando d está dado por (prueba t-test)
d ± t N,k-1Sd
k
1
2
Sd º
(
d
d
)
å
i
k(k -1) i=1
27/08/2013 03:04:51 p. m.
30
Comparación
de
Algoritmos
de
Aprendizaje
(6)
27/08/2013 03:04:51 p. m.
 Constante tN,k-1 tiene 2 parámetros
 N, nivel de confianza
 k-1, número de grados de libertad
 Número de eventos aleatorios v, independientes
para producir el valor de d
 Grados de libertad es k-1
 Si k  ∞, tN,k-1 se acerca a zN
31
Comparación
de
Algoritmos
de
Aprendizaje
(7)
27/08/2013 03:04:51 p. m.
 La comparación se hace con conjuntos de prueba
idénticos
 Al comparar hipótesis no es necesario
 Se denominan pruebas apareadas (paired tests)
 Producen intervalos de confianza más ajustados
 Diferencias entre errores en prueba apareada se
deben a diferencias entre hipótesis
 Al usar conjuntos de prueba separados, diferencias
en los errores de muestra parcialmente se atribuyen
a diferencias en la elección de las dos muestras
32
Comparación
de
Algoritmos
de
Aprendizaje
(8)
27/08/2013 03:04:51 p. m.
33
 t-test
Prueba t-test
(1)
27/08/2013 03:04:51 p. m.
 ¿Las medias de 2 grupos son estadísticamente
diferentes una de la otra?
 ¿La diferencia se debe a errores de muestreo o
casualidad?
 Para comparar las medias de 2 grupos
34
 Factores para determinar si una dif. entre 2 grupos
se debe a verdadera dif. o a un error debido a la
casualidad
Prueba t-test
(2)
27/08/2013 03:04:51 p. m.
 Mientras más grande sea la muestra, es menos
posible que la dif. se deba a errores de muestreo o
casualidad
 A más grande sea la dif. entre las 2 medidas, menos
posible que la dif. se deba a errores de muestreo
 Mientras más pequeña sea la varianza entre los
participantes, es menos posible que la dif. haya sido
creada por errores de muestreo
35
 A. Hipótesis nula
 H0 : μ1=μ2
 B. Hipótesis alternativa
 HA : μ1≠μ2
Prueba t-test
(3)
 C. Las medias son iguales
que en el caso B. Pareciera
que:




27/08/2013 03:04:51 p. m.
HA : μ1≠μ2
Pero sería un error
H0 : μ1=μ2 es lo correcto
¿Cuantas veces de 100
estaríamos de acuerdo
en equivocarnos?
36
Prueba t-test
(4)
http://www.socialresearchmethods.net/kb/stat_t.php
27/08/2013 03:04:51 p. m.
37
 Nivel Alfa (α)
Prueba t-test
(5)
27/08/2013 03:04:51 p. m.
 Representa el número de veces de 100 que
aceptamos rechazar la hipotesís nula aún cuando es
correcta.
 Si α es 0.05, 5 veces de 100 rechazaremos la
hipótesis nula de manera incorrecta
 Esas 5 veces, ambas medias vendrán de la misma
población (Caso III)
 Pero 95 veces de 100, tendremos resultados
correctos porque es más probable que vengan de
poblaciones diferentes (Caso II)
38
 t-critical value, se encuentra en la tabla
 t-statistic value, el valor final
 Si t-statistic > t-critical, se rechaza la hipótesis
nula, se acepta la hipótesis alterna
Prueba t-test
(6)
27/08/2013 03:04:51 p. m.
 Si t-statistic < t-critical, se retiene la hipótesis
nula
39
 p-vales
Prueba t-test
(7)
27/08/2013 03:04:51 p. m.
 En lugar de comparar los valores t-critical y tstatistical para determinar la diferencia significativa
 Se pueden comparar nivel αy p-values
 En la figura, el nivel αes el área bajo la curva a la
derecha del punto t-critical positivo y a la izquierda
del punto t-critical negativo (todo lo gris y azul
claro). Esto junto es el nivel alfa, 0.05
 El p-value es el área bajo la curva a la derecha del tstatistic púrpura más el área a la izquierda del tstatistic púrpura (solo el azul claro).
40
Prueba t-test
(8)
27/08/2013 03:04:51 p. m.
 Si p-value < α, se acepta la hipótesis alterna
 Si p-value >α , se retiene la hipótesis nula
41
 Evaluación de significancia
 Obtener el t-value
 Calcular los grados de libertad
 DF = N – 1
Prueba t-test
(9)
 Checar en la tabla





Nivel de significancia (0.05, 0.01, 0.001)
 Valor crítico de t
Si valor observado > valor crítico  rechazar H0
Si valor observado < valor crítico  no rechazar H0
Si la tabla no tiene el número de grados de libertad
 Usar el siguiente número menor al real (para 32 usar
30)
27/08/2013 03:04:51 p. m.
42
Prueba t-test
(10)
27/08/2013 03:04:51 p. m.
 Cálculo en algunas herramientas
 Weka
 http://depts.alverno.edu/nsmt/stats.htm
43
 Analysis Of Variance (ANOVA)
 Conocida también como f-test
ANOVA (1)
 Relacionada con la t-test
 t-test mide la diferencia entre las medias de 2
grupos
 ANOVA prueba la dif. entre las medias de 2 o mas
grupos
27/08/2013 03:04:51 p. m.
44
 ANOVA de 1-lado o de factor simple
 Prueba dif. entre grupos que se clasifican solo sobre
una variable independiente
 También hay una prueba ANOVA para múltiples
variables independientes
 Ventaja de ANOVA sobre t-test
ANOVA (2)
 Reduce probabilidad de un error tipo-I
 Muchas comparaciones entre 2 grupos
 Desventaja de ANOVA
 Se pierde especificidad
 f dice que hay dif. significante entre grupos, no dice
cuáles grupos son significativamente diferentes
entre sí
27/08/2013 03:04:51 p. m.
45
 Hipótesis Nula
ANOVA (3)
 Asunción de que no hay real diferencia entre grupos
y cualquier diferencia (estadística) se debe a errores
de muestreo. Un investigador trata de probar que
esto no es cierto
 Error tipo I
 Cuando el investigador rechaza la hipótesis nula aún
cuando era cierta
27/08/2013 03:04:51 p. m.
46
ANOVA (4)
27/08/2013 03:04:51 p. m.
 Material de Referencia
 http://org.elon.edu/econ/sac/anova.htm
47
Descargar