Clasificación

Anuncio
Clasificación
Marta Millan
millan@eisc.univalle.edu.co
www.eisc.univalle.edu.co/materias
Clasificación vs. Predicción
Clasificación
Predicción de etiquetas categóricas
Clasificar los datos (construir un modelo)
basándose en un conjunto de datos de
entrenamiento y los valores de un atributo de
clasificación, y luego utilizar el modelo para
clasificar nuevos datos
Clasificación vs. Predicción
Predicción
Modelos (funciones) para variables con valores
continuos, i.e., predicción de valores
desconocidos
Aplicaciones típicas
Concesión de créditos
Campañas de marketing
Diagnósticos médicos
Clasificación
Muy similar a la experiencia de aprendizaje
humana
Utilización de la observación para formar un
modelo
Analizar un conjunto de datos para
determinar las características de los
mismos (creación de un modelo)
Clasificación
Aprendizaje supervisado
El modelo se forma a partir de datos clasificados
correctamente de antemano
Los modelos se desarrollan en dos fases
Entrenamiento
Prueba
Clasificación
Objetivo
Obtener modelos que discrimine las
instancias de entrada en diferentes clases de
equivalencia por medio de los valores de
diferentes atributos.
Y
X
Clasificación
Requisitos
Suministrar el atributo decisión o clase (label)
El conjunto de valores de este atributo debe ser finito y no
excesivamente grande
Suministrar los atributos condición
Podría requerir datos que no sean numéricos pero existen
variedades que tratan con datos numéricos
Número máximo de precondiciones
Soporte mínimo de las reglas
Clasificación
Entrada de los algoritmos
Atributos condición: Atributos usados para
describir por medio del proceso de
inducción las clases.
Atributos decisión o label: Atributos usados
para construir las clase en los métodos
supervisados (una clase por cada valor o
combinación de valores de dichos
atributos).
Clasificación
Construcción del modelo
Describir un conjunto de datos con base en una
característica
• Cada tupla pertenece a una clase predefinida
determinada por el atributo de decisión
• Se utiliza el conjunto de datos de
entrenamiento
• El modelo se representa a través de reglas de
clasificación, árboles de decisión o mediante
formulas matemáticas
Clasificación
Uso: Para clasificar objetos nuevos de los que se
desconoce su clase
Determinación de la precisión del modelo
Utiliza le modelo para clasificar el conjunto de datos de
entrenamiento y se compara el resultado con la etiqueta
original
La exactitud es el porcentaje de conjunto de datos de
prueba que son clasificados correctamente
El conjunto de datos entrenamiento y el conjunto de datos
de prueba deben de ser disjuntos, para evitar el overfitting
Clasificación
Representación del error
Matriz de Confusión
Representación en forma de tabla del número de instancias
clasificadas correctamente
Predicción
B
56
1355
A
B
Datos reales
A
1034
107
Clasificación
Construcción del modelo
Algoritmos de
clasificación
Datos de
entrenamiento
Nombre
Alberto
Maria
Nacho
Alvaro
David
Sonia
Tipo
Asociado
Asociado
Titular
Asociado
Asociado
Asociado
Años
3
7
2
7
6
3
Fijo
no
si
si
si
no
no
Clasificador
(Modelo)
IF tipo = ‘Titular’
OR años > 6
THEN fijo = ‘si’
Clasificación
Técnicas
Árboles de inducción
C4.5 y sus variantes, ID3
Muy eficientes en tiempo de proceso
Resultados intuitivos
Inducción neuronal
El resultado es una arquitectura de nodos con
pesos
Muy robustas
Clasificación
Técnicas
Técnicas simbólicas: árboles de inducción
Muy eficientes en tiempo de proceso
Resultados intuitivos
Particiones lineales
Algunos presentan problemas con variables
continuas
Clasificación
Técnicas
Redes neuronales
Sólo entrada numérica
Mas robusto
Difícil de entender la salida
Clasificación
Árboles de decisión
Árboles de decisión
La representación es en forma de árbol
Los nodos representan la verificación de una
condición sobre un atributo
Las ramas representan el valor de la condición
comprobada en el nodo del cual derivan
Los nodos hoja representan las etiquetas de
clase
Clasificación
Árboles de decisión
La construcción de los árboles de decisión en dos
fases
Construcción del árbol
• Al principio, todos las tuplas del conjunto de
entrenamiento está en la raíz
• Se dividen recursivamente con base en el atributo
seleccionado
Poda del árbol
• Identificar y eliminar las ramas que presentan ruido o
outliers
Clasificación
Árboles de decisión
Utilización de los árboles de decisión: clasificar una
muestra desconocida
Comprobar los valores de los atributos de la nueva
muestra con las condiciones del árbol y descubrir su
etiqueta de clase
Ejemplo
Datos de entrenamiento
Edad
alta
alta
alta
media
baja
baja
baja
media
baja
media
media
media
alta
media
Estudia Ratio de crédito
no
aceptable
no
excelente
no
aceptable
no
aceptable
si
aceptable
si
excelente
si
excelente
no
aceptable
si
aceptable
si
aceptable
si
excelente
no
excelente
si
aceptable
no
excelente
Compra
no
no
si
si
si
no
si
no
si
si
si
si
si
no
Ejemplo
Árbol de decisión
Edad?
overcast
30..40
<=30
Estudia?
si
no
si
no
si
>40
Ratio de crédito?
excelente
no
aceptable
si
Árbol de decisión: algoritmo
Algoritmo básico (voraz)
El árbol se construye de forma top-down recursiva utilizando
divide y vencerás
Al principio, todas las tuplas se encuentran en la raíz
Los atributos deben ser categóricos, si son valores
continuos hay que discretizarlos previamente
Las tuplas se van dividiendo recursivamente en base al
atributo seleccionado
Los atributos de condición se seleccionan en base a
heurísticas o mediante medidas estadísticas, por ejemplo,
ganancia de información
Árbol de decisión: algoritmo
Condiciones de terminación de división
Todas las muestras en un nodo pertenecen a la misma
clase
No hay más atributos para futuras particiones. Se puede
utilizar votación para clasificar el nodo hoja
No quedan más ejemplos
Ganancia de información (ID3/C4.5/C5.0)
Seleccionar el atributo con mayor ganancia de información
Si hay dos clases, P y N
Sea el conjunto de ejemplo S que contiene p elementos de
la clase P y n elementos de las clase N
La cantidad de información, que se necesita para decidir si
una muestra cualquiera de S pertenece a P o a N se define
como
I ( p, n ) = −
p
p
n
n
log 2
−
log 2
p+n
p+n p+n
p+n
Ganancia de información en árboles de
decisión
Si se utiliza un atributo A, un conjunto S se dividirá
en conjuntos {S1, S2 , …, Sv}
Si Si contiene pi ejemplos de P y ni ejemplos de N, la
entropía, o la información necesaria para clasificar objetos
en todos los subárboles Si es
pi + ni
E ( A) = ∑
I ( pi , ni )
i =1 p + n
ν
La ganancia de información de la rama A es
Gain( A) = I ( p, n) − E ( A)
Selección de atributos usando ganancia de
información
Clase P: compra = “si”
Clase N: compra = “no”
I(p, n) = I(9, 5) =0.940
Calcular la entropía para
edad:
edad
<=30
30…40
>40
pi
2
4
3
ni I(pi, ni)
3 0,971
0 0
2 0,971
E ( edad
5
4
I ( 2 ,3 ) +
I ( 4 ,0 )
14
14
5
+
I ( 3 , 2 ) = 0 . 971
14
) =
Gain(edad ) = I ( p, n) − E (edad )
Gain(ingresos ) = 0.029
Gain(estudia ) = 0.151
Gain(ratio de crédito) = 0.048
Extracción de reglas de árboles de decisión
Si condición Entonces decisión
Se crea una regla por cada camino de la raiz a las
hojas
Cada par atributo-valor a lo largo del camino
representa una conjunción
El nodo hoja representa la clase
SI edad = “<=30” Y estudiante = “no” ENTONCES
compra_pc = “no”
SI edad = “<=30” Y estudiante = “si” ENTONCES
compra_pc = “SI”
Evitar el “overfitting”
El árbol generado es posible que sea muy exacto
para el conjunto de entrenamiento
Demasiadas ramas puede significar que algunas son
debidas al ruido o a los outliers
Poca exactitud en los ejemplos no vistos
Dos enfoques para evitarlo
Prepruning
Postpruning
Enfoques para determinar el tamaño final
del árbol
Separa los datos en los conjuntos de
entrenamiento (2/3) y prueba (1/3)
Utilizar la validación cruzada e.g., la
validación 10-fold
Utilizar todos los datos para entrenamiento
Pero aplicar un test estadístico (e.g., chi-square)
para estimar si expandir o podar un nodo
Mejoras en los árboles
Permitir atributos con valores continuos
Tratamiento de valores nulos
Se definen dinámicamente los valores discretos que dividen
los valores del atributo en un conjunto discreto de intervalos
Se asigna el valor mas frecuente
Se asigna una probabilidad a cada uno de los posibles
valores
Creación de nuevos atributos que reduzcan la
repetición y la replicación
Clasificación bayesiana ¿por qué?
Aprendizaje probabilístico: Calcula hipótesis
probabilísticas explícitas y destaca entre los
enfoques mas comunes para ciertos tipos de
problemas
Incremental:Cada ejemplo puede
incrementar/decrementar la probabilidad de que
una hipótesis sea correcta.
La predicción probabilística predice múltiple
hipótesis ponderadas
Teorema de Bayes
Dado un conjunto de datos, la probabilidad
a posteriori de una hipótesis h es:
P
(
D
|
h
)
P
(
h
)
P(h | D) =
P(D)
Dificultad: requiere conocimiento inicial de
las probabilidades
Clasificador Naïve Bayes Classifier (I)
Suposición simplificada: los atributos son
condicionalmente independientes :
n
P(Cj|V) ∞ P(Cj)∏P(vi|Cj)
i=1
Reduce enormemente el costo
computacional pues solo tiene en cuenta la
distribución de la clase.
Clasificador Naive Bayes (II)
Dado un conjunto de entrenamiento se puede
calcular las probabilidades
Tiempo
soleado
cubierto
lluvia
Temperatura
calor
suave
fresco
P
2/9
4/9
3/9
2/9
4/9
3/9
N
3/5
0
2/5
2/5
2/5
1/5
Humedad P N
alta
3/9 4/5
normal
6/9 1/5
Viento
si
no
3/9 3/5
6/9 2/5
Redes Neuronales
Ventajas
La exactitud es generalmente alta
Robusto, trabaja bien incluso cuando los datos contienen
errores
La salida puede ser discreta, valor real, un vector de valores
reales
Evaluación rápida de la función aprendida
Crítica
Largo tiempo de entrenamiento
Dificultas de entender la función aprendida
Predicción de valores
similar a la clasificación
Primero construye un modelo
El modelo predice el valor desconocido
El principal método es la regresión
Regresión lineal y múltiple
Regresión no lineal
Predicción de valores
En lo que difiere de la clasificación
La clasificación predice clases de valores
categóricos
Los modelos de predicción son funciones
continuas
Algoritmos de
Predicción de Valores
Para un conjunto de atributos
condición: c1, c2, c3, ... , cn
Se pretende aproximar el atributo X
como:
X=w1 c1 + w2 c2 + w3 c3 + ... + wn cn
En otras palabras, calcular el vector de
pesos (w1, w2, w3, ... wn)
Algoritmos de Predicción de Valores
(Regresión)
X
c
Análisis de regresión
Regresión lineal: Y = α + β X
Los parámetros α y β especifican la línea y se estiman
utilizando los datos.
Regresión múltiple: Y = b0 + b1 X1 + b2 X2.
Modelos Log-linear:
La tabla de probabilidades conjunta se aproxima por el
producto de tablas de ordenes inferiores.
Probabilidad: p(a, b, c, d) = αab βacχad δbcd
Exactitud de la clasificación: estimación de
los errores
División: Entrenamiento y prueba
Validación cruzada (Cross-validation)
Conjuntos independientes (2/3), (1/3)
Se utiliza cuando se tienen muchos datos
Dividir el conjunto en K muestras
Utilizar k-1 muestras como entrenamiento y la restante como
prueba (k-fold cross-validation)
Datos con tamaño moderado
Bootstrapping (dejar uno fuera)
Datos de tamaño pequeño
Boosting y Bagging
El Boosting incrementa la exactitud de la
clasificación
Aplicable a los árboles de decisión o a los Clasificadores
Bayesianos
Se entrenan distintos clasificadores y cada uno
aprende de su predecesor
Bagging: entrenamiento donde se van eligiendo k
elementos con reemplazamiento. Se puede utilizar
en la predicción numérica
Resumen
La clasificación es posiblemente una de las
técnicas mas usada
Dependiendo del tipo de datos y del tipo de
la variable a estimar así se eligen las
técnicas
Conviene entrenar los datos con distintas
técnicas
Descargar