MÉTODOS AVANZADOS EN APRENDIZAJE AUTOMÁTICO HOJA DE PROBLEMAS 1. Una variable aleatoria x sigue una distribución de probabilidad formada por una mezcla de dos Gaussianas: P( x | P 1 , P 2 , V ) 2 ¦p § x P k 2 · ¸ exp¨ 2 ¨ ¸ 2 2V 2S V © ¹ 1 k k 1 Sabemos que la muestra está formada por dos clases etiquetadas como k=1, 2. La probabilidad a priori para cada una de las clases es idéntica. Se dispone de un conjunto de datos formado por N puntos independientes provenientes de la distribución anterior. Sea kn la etiqueta de clase desconocida para el punto nésimo. Asumiendo que los parámetros de las dos Gaussianas son conocidos T 1 = ( P 1 , V ) y T 2 =( P 2 , V ) , demostrad que la probabilidad a posteriori para el n-ésimo punto puede ser escrita por: 1 p(k n 1 | x n ,T 1) 1 exp> w1 x n w0 @ 1 2 | x n ,T 2) 1 expw1 x n w0 p(k n Calculad las expresiones para w1 y w0 . 2. Partiendo de un conjunto de entrenamiento formado por tres clases con la misma probabilidad a priori y cuatro atributos para cada patrón. El número de patrones en la base de datos es de 150. Las matrices de las medias y dispersiones de las clases están dadas por: P1 S1 § 6.1 ¨ ¨ 4.9 ¨ 0.8 ¨ ¨ 0.5 © § 5.0 · ¨ ¸ ¨ 3.4 ¸ ¨ 1.5 ¸ ¨ ¸ ¨ 0.2 ¸ © ¹ 4.9 7.0 0.6 0.5 0.8 0.6 1.5 0.3 P2 0.5 · ¸ 0.5 ¸ 0.3 ¸ ¸ 0.5 ¸¹ § 5.9 · ¨ ¸ ¨ 2.8 ¸ ¨ 4.3 ¸ ¨ ¸ ¨ 1.3 ¸ © ¹ S2 P3 §13.1 ¨ ¨ 4.2 ¨ 9.0 ¨ ¨ 2.7 © § 6.6 · ¨ ¸ ¨ 3.0 ¸ ¨ 5.6 ¸ ¨ ¸ ¨ 2.0 ¸ © ¹ 4.2 9.0 4.8 4.1 4.1 10.8 2.1 3.6 2.7 · ¸ 2.1 ¸ 3.6 ¸ ¸ 1.9 ¸¹ S3 § 21.4 ¨ ¨ 5.1 ¨ 15.4 ¨ ¨ 2.5 © 5.1 15.4 5.1 3.5 3.5 14.9 2.3 2.4 2.5 · ¸ 2.3 ¸ 2.4 ¸ ¸ 3.7 ¸¹ a. Reducción de la dimensión del espacio original usando el discriminante lineal de Fisher: calcular el vector W que define el hiperplano de proyección. b. En el nuevo espacio de proyección clasificar los siguientes patrones por distancias a las medias proyectadas: x1 § 5.9 · ¨ ¸ ¨ 3.0 ¸ ¨ 5.1¸ ¨ ¸ ¨ 1.8 ¸ © ¹ x2 § 6.3 · ¨ ¸ ¨ 3.3 ¸ ¨ 6.0 ¸ ¨ ¸ ¨ 2.5 ¸ © ¹ x3 § 5.7 · ¨ ¸ ¨ 2.8 ¸ ¨ 4.1¸ ¨ ¸ ¨ 1.3 ¸ © ¹ c. Asumiendo que en el espacio proyectado, las distribuciones de las tres clases se comportan según una normal, calcular las funciones discriminantes y clasificar los patrones anteriores. ¿Coincide el resultado con el apartado b.? ¿por qué? Comentario: Para el cálculo de las matrices necesarias para el desarrollo del ejercicio está permitido el uso de programas de ayuda del estilo Matlab, Octave o similares. 3. Sea el siguiente problema de clasificación, donde x es el vector de atributos y c es la clase: x1=(0,0), c1=1 x2=(1,1), c2=1 x3=(0,1), c3=-1 x4=(1,0), c4=-1 Entrenamos una SVM usando el kernel k(x,y)=(<x,y> + 1)2 y obtenemos los siguientes valores para los multiplicadores de Lagrange (D) y el bias (b): D1=13/3 D2=2 D3=8/3 D4=8/3 b=0 Como se ve, todos los puntos son vectores de soporte. Se pide: a. Comprobar que los 4 vectores de soporte están sobre el margen. b. Dar la ecuación de la frontera de decisión y dibujarla esquemáticamente. c. Clasificar los puntos siguientes: x5=(2,1), x6=(2,0) 4. Considera el siguiente conjunto de entrenamiento en 3 dimensiones proveniente de dos clases: X1 1 0 0 0 1 0 1 1 X2 1 2 -1 -2 1 2 -1 -2 X3 -1 -2 1 2 2 1 -1 -2 Clase 1 1 1 1 0 0 0 0 a. Explica brevemente por qué variables con un valor de información mutua alto con respecto a la clase pudieran ser más útiles en problemas de clasificación. b. En el conjunto anterior, ¿qué variable tiene un valor mayor de la información mutua respecto a la clase? c. Dado el siguiente discriminante: P ( y 1 | x, w) g ( w0 w1 xi w2 x j w3 xi x j w4 xi2 w5 x 2j ) donde x=(xi, xj) está formado por un par de variables. Basándote en el conjunto de entrenamiento anterior ¿qué par de variables minimizarían el error de entrenamiento?. 5. Tenemos la siguiente base de datos: Entrenamiento: Clase X1 X2 0 2 1 0 1 6 0 2 5 0 3 2 0 3 4 0 6 7 0 6 5 0 7 6 0 7 7 0 8 7 Clase X1 X2 0 8 5 1 3 1 1 6 8 1 6 4 1 5 7 1 7 5 1 7 9 1 8 3 1 6 3 1 9 6 Clase X1 X2 0 1 1 0 2 3 0 1 4 0 3 3 0 3 4 0 4 1 0 7 5 0 7 6 0 7 7 0 8 5 Clase X1 X2 0 8 6 1 3 2 1 5 4 1 5 6 1 5 8 1 5 9 1 7 4 1 7 8 1 9 4 1 9 8 Validación: Nuestro objetivo es detectar la clase 0. Para ello: x x x Construye un árbol de decisión con un mínimo de 3 hojas para dicha tarea, dibujando los puntos apropiados en coordenadas (X1, X2) y seleccionando con la ayuda del dibujo las preguntas que haría un algoritmo que use como función de impureza el Error Esperado y preguntas tipo Xi > umbral en los nodos de decisión. Estima las probabilidades de cada clase en cada hoja usando el conjunto de validación. Estima la tasa de acierto que tendrá el árbol en la predicción de la clase 0, en función del tamaño de la campaña deseada. Para ello dibuja el diagrama tamaño de campaña-tasa de acierto usando el conjunto de validación. Explica con detalle todos los razonamientos y suposiciones que has hecho. 6. Sean los siguientes puntos: (-1,2), (-1,-1), (0,0), (2,-1), (1,2), (3,3). Se pide: (a) Aplicar el algoritmo de k-means para 2 clusters, partiendo de los clusters iniciales C1={(-1,2), (2,-1), (3,3)} y C2={(-1,-1), (0,0), (1,2)}. ¿Cuántos pasos hacen falta para que el algoritmo converja? ¿Cuáles son los clusters finales? Nota: No es necesario calcular todas las distancias, en la mayoría de los casos bastará con esbozar un esquema que muestre los centros de los clusters en cada paso del algoritmo para decidir cuál es el centro más cercano a cada punto. Calculad las distancias sólo en los casos dudosos. (b) Supongamos que los puntos (-1,2), (-1,-1), (0,0) y (2,-1) pertenecen a la clase 0, y los puntos (1,2), (3,3) pertenecen a la clase 1. Dibujar el hiperplano (línea en este caso) separador óptimo, calcular el margen e indicar cuáles son los vectores de soporte.