Sobre la introducción al aprendizaje ...

Anuncio
UNIVERSIDAD REY JUAN CARLOS
CURSO 2013-2014
Guía de Estudio Tema 10
Aprendizaje I: Introducción y
Árboles de decisión
Sobre la introducción al aprendizaje automático y los diferentes tipos de aprendizaje se pueden
consultar las siguientes referencias:
- [Russell&Norvig2004]: capítulo 18 secciones 1 y 2
Respecto al algoritmo básico del aprendizaje de árboles de decisión se puede encontrar información
más detallada en:
- [Russell&Norvig2004]: capítulo 18 seccione 3
- El algoritmo ID3 ha sido desarrollado inicialmente por Quinlan en [Quinlan 1979]
Una discusión más detallada y extensa del aprendizaje de árboles de decisión, otras formas de
aprendizaje inductivo y un análisis de algunos aspectos teóricos del aprendizaje inductivo se
encuentran en todo el capítulo 18 de [Russell&Norvig2004].
Respecto a las formas de evaluar métodos de aprendizaje, en realidad se evalúa la calidad de los
clasificadores que se hayan aprendido. Esta evaluación es similar a cualquier tipo de sistema de
clasificación de cualquier ámbito (por ejemplo también la evaluación de motores de búsqueda de
documentos). No hay una descripción muy detallada de estos parámetros de evaluación en los libros
de referencia de la asignatura. La información que viene en la Wikipedia bajo el concepto de
“Sensitivity and specificity” está bastante bien y completa.
Referencias:
[Russell&Norvig2004] Stuart Russell, Peter Norvig. Inteligencia Artificial: Un enfoque modern.
Pearson Educación S.A. Madrid, 2004.
[Quinlan1979] J.R.Quinlan. Discovering rules from large collections of examples: A case study. En
D. Michie (ed.). Expert Systems in the Microelectronic Age. Edingurgh University Press,
1979.
Solución del ejercicio en la transparencia 36:
Eglobal=(-3/8 * log23/8) + (-5/8 * log25/8)=0,954
Pelo:
Erubio =(-2/4*log22/4)+(-2/4*log22/4)=1
Emoreno =(-0*log20)+(-1*log21)=0
Erojo =(-1*log21)+(-0*log20)=0
Epelo=4/8*1 +3/8*0+1/8*0=0,5
-> mayor ganancia
Altura:
Ealta =(-0*log20)+( -1*log21)=0
Emedia =(-2/3*log22/3)+( -1/3*log21/3)=0,91
Ebaja =(-1/3*log21/3)+( -2/3*log22/3)=0,91
Ealtura=2/8*0 +3/8*0,91+3/8*0,91=0,68
Peso:
Ealta =(-1/3*log21/3)+( -2/3*log22/3)=0,91
Emedia =(-1/3*log21/3)+( -2/3*log22/3)=0,91
Pág. 1 / 3
UNIVERSIDAD REY JUAN CARLOS
CURSO 2013-2014
Guía de Estudio Tema 10
Aprendizaje I: Introducción y
Árboles de decisión
Ebaja =(-1/2*log21/2)+( -1/2*log21/2)=1
Epeso=3/8*0,91+3/8*0,91+ 2/8*1=0,93
Protección:
Esi =(-0*log20)+( -1*log21)=0
Eno =(-3/5*log23/5)+( -2/5*log22/5)=0,97
Eprotección=3/8*0+5/8*0,97=0,6
Pelo
moreno
rojo
rubio
NO
¿?
SI
Para pelo rubio:
Eglobal=(-1/2 * log21/2) + (-1/2 * log21/2)=1
Protección:
Esi =(-0*log20)+( -1*log21)=0
Eno =(-1*log21)+( -0*log20)=0
Eprotección=0
! máxima ganancia
No hace falta calcular los otros atributos ya que con la protección se obtiene la mejor ganancia
posible (1).
Solución final:
Pelo
moreno
rojo
rubio
NO
Protección
si
SI
no
NO
SI
El algoritmo termina ya que todos los nodos están etiquetados con una clase (SI o NO).
Pág. 2 / 3
UNIVERSIDAD REY JUAN CARLOS
CURSO 2013-2014
Guía de Estudio Tema 10
Aprendizaje I: Introducción y
Árboles de decisión
Respuesta a la pregunta en la transparencia 40:
¿Es útil un clasificador con una corrección del 0,4?
En principio, un clasificador con una corrección de 0,4 se equivoca en el 60% de los casos y acierta
en el 40%. En general, un clasificador de este tipo no tiene mucha utilidad. Es más, teniendo un
clasificador con corrección 0,4, se podría construir fácilmente uno con corrección 0,6:
Simplemente se devuelve el resultado contrario a lo que dice el clasificador. Si este es correcto en un
40% y erróneo en un 60%, decir lo contrario sería correcto en el 60% de los casos (y erróneo en el
40%).
Ahora bien, sí es posible que en algún caso concreto, un clasificador con una corrección de 0,4
podría tener sentido si tiene otras cualidades interesantes. Consideremos, por ejemplo, un método
automático de diagnostico de alguna enfermedad grave. Supongamos que la enfermedad la tiene un
10% de los personas analizadas y un 90% no la tiene. Supongamos que el método siempre detecta la
enfermedad si existe (es decir, no se equivoca en los 10% de casos positivos). Sin embargo, se
equivoca en el 66,6 % de los casos que no tienen la enfermedad. En total, este método tendría una
corrección de 0,4 (se equivocaría en el 60% de todos los casos). Ahora bien, el método si es útil para
un médico, porque si el método no diagnostica la enfermedad, el médico puede estar seguro de que el
paciente no la tenga. En los casos, donde el diagnostico automático resulta positivo, el médico podría
realizar otras pruebas para determinar la existencia de la enfermedad con precisión.
Pág. 3 / 3
Descargar