σ μ σ π σ μ μ

Anuncio
MÉTODOS AVANZADOS EN APRENDIZAJE AUTOMÁTICO
HOJA DE PROBLEMAS
1. Una variable aleatoria x sigue una distribución de probabilidad formada por una
mezcla de dos Gaussianas:
P( x | P 1 , P 2 , V )
2
¦p
§ x P k 2 ·
¸
exp¨ 2
¨
¸
2
2V
2S V
©
¹
1
k
k 1
Sabemos que la muestra está formada por dos clases etiquetadas como k=1, 2.
La probabilidad a priori para cada una de las clases es idéntica. Se dispone de
un conjunto de datos formado por N puntos independientes provenientes de la
distribución anterior. Sea kn la etiqueta de clase desconocida para el punto nésimo. Asumiendo que los parámetros de las dos Gaussianas son conocidos
T 1 = ( P 1 , V ) y T 2 =( P 2 , V ) , demostrad que la probabilidad a posteriori para
el n-ésimo punto puede ser escrita por:
1
p(k n 1 | x n ,T 1)
1 exp> w1 x n w0 @
1
2 | x n ,T 2)
1 expw1 x n w0 p(k n
Calculad las expresiones para w1 y w0 .
2. Partiendo de un conjunto de entrenamiento formado por tres clases con la
misma probabilidad a priori y cuatro atributos para cada patrón. El número de
patrones en la base de datos es de 150. Las matrices de las medias y
dispersiones de las clases están dadas por:
P1
S1
§ 6.1
¨
¨ 4.9
¨ 0.8
¨
¨ 0.5
©
§ 5.0 ·
¨ ¸
¨ 3.4 ¸
¨ 1.5 ¸
¨ ¸
¨ 0.2 ¸
© ¹
4.9
7.0
0.6
0.5
0.8
0.6
1.5
0.3
P2
0.5 ·
¸
0.5 ¸
0.3 ¸
¸
0.5 ¸¹
§ 5.9 ·
¨ ¸
¨ 2.8 ¸
¨ 4.3 ¸
¨ ¸
¨ 1.3 ¸
© ¹
S2
P3
§13.1
¨
¨ 4.2
¨ 9.0
¨
¨ 2.7
©
§ 6.6 ·
¨ ¸
¨ 3.0 ¸
¨ 5.6 ¸
¨ ¸
¨ 2.0 ¸
© ¹
4.2 9.0
4.8 4.1
4.1 10.8
2.1 3.6
2.7 ·
¸
2.1 ¸
3.6 ¸
¸
1.9 ¸¹
S3
§ 21.4
¨
¨ 5.1
¨ 15.4
¨
¨ 2.5
©
5.1 15.4
5.1 3.5
3.5 14.9
2.3 2.4
2.5 ·
¸
2.3 ¸
2.4 ¸
¸
3.7 ¸¹
a. Reducción de la dimensión del espacio original usando el discriminante
lineal de Fisher: calcular el vector W que define el hiperplano de proyección.
b. En el nuevo espacio de proyección clasificar los siguientes patrones por
distancias a las medias proyectadas:
x1
§ 5.9 ·
¨ ¸
¨ 3.0 ¸
¨ 5.1¸
¨ ¸
¨ 1.8 ¸
© ¹
x2
§ 6.3 ·
¨ ¸
¨ 3.3 ¸
¨ 6.0 ¸
¨ ¸
¨ 2.5 ¸
© ¹
x3
§ 5.7 ·
¨ ¸
¨ 2.8 ¸
¨ 4.1¸
¨ ¸
¨ 1.3 ¸
© ¹
c. Asumiendo que en el espacio proyectado, las distribuciones de las tres clases
se comportan según una normal, calcular las funciones discriminantes y
clasificar los patrones anteriores. ¿Coincide el resultado con el apartado b.?
¿por qué?
Comentario: Para el cálculo de las matrices necesarias para el desarrollo del
ejercicio está permitido el uso de programas de ayuda del estilo Matlab, Octave
o similares.
3. Sea el siguiente problema de clasificación, donde x es el vector de atributos y c
es la clase:
x1=(0,0), c1=1
x2=(1,1), c2=1
x3=(0,1), c3=-1
x4=(1,0), c4=-1
Entrenamos una SVM usando el kernel k(x,y)=(<x,y> + 1)2 y obtenemos los
siguientes valores para los multiplicadores de Lagrange (D) y el bias (b):
D1=13/3
D2=2
D3=8/3
D4=8/3
b=0
Como se ve, todos los puntos son vectores de soporte. Se pide:
a. Comprobar que los 4 vectores de soporte están sobre el margen.
b. Dar la ecuación de la frontera de decisión y dibujarla esquemáticamente.
c. Clasificar los puntos siguientes: x5=(2,1), x6=(2,0)
4. Considera el siguiente conjunto de entrenamiento en 3 dimensiones proveniente
de dos clases:
X1
1
0
0
0
1
0
1
1
X2
1
2
-1
-2
1
2
-1
-2
X3
-1
-2
1
2
2
1
-1
-2
Clase
1
1
1
1
0
0
0
0
a. Explica brevemente por qué variables con un valor de información
mutua alto con respecto a la clase pudieran ser más útiles en problemas
de clasificación.
b. En el conjunto anterior, ¿qué variable tiene un valor mayor de la
información mutua respecto a la clase?
c. Dado el siguiente discriminante:
P ( y 1 | x, w) g ( w0 w1 xi w2 x j w3 xi x j w4 xi2 w5 x 2j )
donde x=(xi, xj) está formado por un par de variables. Basándote en el
conjunto de entrenamiento anterior ¿qué par de variables minimizarían el
error de entrenamiento?.
5. Tenemos la siguiente base de datos:
Entrenamiento:
Clase
X1
X2
0
2
1
0
1
6
0
2
5
0
3
2
0
3
4
0
6
7
0
6
5
0
7
6
0
7
7
0
8
7
Clase
X1
X2
0
8
5
1
3
1
1
6
8
1
6
4
1
5
7
1
7
5
1
7
9
1
8
3
1
6
3
1
9
6
Clase
X1
X2
0
1
1
0
2
3
0
1
4
0
3
3
0
3
4
0
4
1
0
7
5
0
7
6
0
7
7
0
8
5
Clase
X1
X2
0
8
6
1
3
2
1
5
4
1
5
6
1
5
8
1
5
9
1
7
4
1
7
8
1
9
4
1
9
8
Validación:
Nuestro objetivo es detectar la clase 0. Para ello:
x
x
x
Construye un árbol de decisión con un mínimo de 3 hojas para dicha tarea,
dibujando los puntos apropiados en coordenadas (X1, X2) y seleccionando
con la ayuda del dibujo las preguntas que haría un algoritmo que use como
función de impureza el Error Esperado y preguntas tipo Xi > umbral en los
nodos de decisión.
Estima las probabilidades de cada clase en cada hoja usando el conjunto de
validación.
Estima la tasa de acierto que tendrá el árbol en la predicción de la clase 0, en
función del tamaño de la campaña deseada. Para ello dibuja el diagrama
tamaño de campaña-tasa de acierto usando el conjunto de validación.
Explica con detalle todos los razonamientos y suposiciones que has hecho.
6. Sean los siguientes puntos: (-1,2), (-1,-1), (0,0), (2,-1), (1,2), (3,3). Se pide:
(a) Aplicar el algoritmo de k-means para 2 clusters, partiendo de los clusters iniciales
C1={(-1,2), (2,-1), (3,3)} y C2={(-1,-1), (0,0), (1,2)}. ¿Cuántos pasos hacen falta para
que el algoritmo converja? ¿Cuáles son los clusters finales?
Nota: No es necesario calcular todas las distancias, en la mayoría de los casos bastará
con esbozar un esquema que muestre los centros de los clusters en cada paso del
algoritmo para decidir cuál es el centro más cercano a cada punto. Calculad las
distancias sólo en los casos dudosos.
(b) Supongamos que los puntos (-1,2), (-1,-1), (0,0) y (2,-1) pertenecen a la clase 0, y
los puntos (1,2), (3,3) pertenecen a la clase 1. Dibujar el hiperplano (línea en este caso)
separador óptimo, calcular el margen e indicar cuáles son los vectores de soporte.
Descargar