Tarea Número 6 - Oldemar Rodríguez Rojas

Anuncio
Profesor: Dr. Oldemar Rodrı́guez Rojas
EIA-435O Minerı́a de Datos II (Optativo)
Fecha de Entrega: Jueves 31 de octubre del 2013
Tarea Número 6
1. Para esta pregunta usaremos los datos SpamData.csv.
a) El objetivo de este ejercicio es analizar la variación del error para el caso de la predicción
de los e-mails que son o no spam, para esto repita 20 veces el cálculo de error glabal de
predicción usando el método de las Redes Neuronales con un 70 % de los datos para
tabla aprendizaje y un 30 % para la tabla testing. Grafique los resultados.
b) El objetivo de este ejercicio es medir el error para el caso de la predicción de los e-mails
que son o no spam utilizando validación cruzada con K grupos (K−fold cross-validation).
Para esto usando el método de las Redes Neuronales realice una validación cruzada 20
veces con 30 grupos (folds) y grafique el error obtenido en cada iteración, agregue en este
gráfico los 20 errores generados en el ejercicio anterior.
c) Repita los 2 ejercicios anteriores usando Bosques Aleatorios y Métodos de Potenciación.
d ) ¿Qué se puede concluir?
2. En este ejercicio usaremos la tabla de datos EjemploAlgoritmosRecomendación.csv, la cual
contiene los promedios de evaluación de 100 personas que adquirieron los mismos productos o
muy similares en la tienda AMAZON.
a) Para estos datos determine usando el Codo de Jambu el mejor valor para k en el método
k−medias con iter.max = 200.
b) Usando k = 4 y 100 ejecuciones del método de las k−medias determine cuál de los
algoritmos “Hartigan-Wong”, “Lloyd”, “Forgy” y “MacQueen”funciona mejor para estos
datos en el sentido de que minimizan la inercia intra–clases.
3. Esta pregunta utiliza los datos sobre muerte del corazón en Sudáfrica (SAheart.csv). La variable que queremos predecir es chd que es un indicador de muerte coronaria basado en algunas
variables predictivas (factores de riesgo) como son el fumado, la obesidad, las bebidas alcohólicas, entre otras.
a) El objetivo de este ejercicio es calibrar el método de ADA Boosting. Aquı́ interesa predecir
el Si en la variable chd, para esto genere 10 Validaciones Cruzadas con 6 grupos calibrando el modelo de acuerdo con los tres tipos de algoritmos que permite, discrete,real
y gentle, para medir la calidad de método sume la cantidad de Si detectados en los
diferentes grupos. Luego grafique las 10 iteraciones para los tres algoritmos en el mismo
gráfico. ¿Se puede determinar con claridad cuál algoritmo es el mejor? Para generar los
modelos predictivos use las siguientes instrucciones:
modelo<-ada(chd~.,data=taprendizaje,iter=20,nu=1,type="discrete")
modelo<-ada(chd~.,data=taprendizaje,iter=20,nu=1,type="real")
modelo<-ada(chd~.,data=taprendizaje,iter=20,nu=1,type="gentle")
1
b) Repita el ejercicio anterior, pero esta vez en lugar de sumar los Si detectados, promedie
los errores globales cometidos en los diferentes grupos (folds). Luego grafique las 10 itereaciones para los tres algoritmos en el mismo gráfico. ¿Se puede determinar con claridad
cuál algoritmo es el mejor?
c) ¿Cuál algoritmo usarı́a con base en la información obtenida en los dos ejercicios anteriores?
4. Esta pregunta también utiliza los datos sobre muerte del corazón en Sudáfrica (SAheart.csv).
a) El objetivo de este ejercicio es comparar todos los métodos predictivos vistos en el curso
con esta tabla de datos. Aquı́ interesa predecir el Si en la variable chd, para esto genere
10 Validaciones Cruzadas con 6 grupos para los métodos SVM, KNN, Bayes, LDA, QDA,
Árboles, Bosques, Potenciación y Redes Neuronales. Luego grafique las 10 iteraciones para todos los métodos en el mismo gráfico. ¿Se puede determinar con claridad cuál
métodos es el mejor?
b) Repita el ejercicio anterior, pero esta vez en lugar de sumar los Si detectados, promedie
los errores globales cometidos en los diferentes grupos (folds). Luego grafique las 10 itereaciones para los tres algoritmos en el mismo gráfico. ¿Se puede determinar con claridad
cuál algoritmo es el mejor?
c) ¿Cuál método usarı́a con base en la información obtenida en los dos ejercicios anteriores?
5. Con los datos que usted escogió de “UCI The Machine Learning Repository” realice lo siguiente:
a) Dé una explicación detallada de los mismos.
b) Compare todos los métodos predictivos vistos en el curso con esta tabla de datos. Primero
seleccione el ı́ndice de error que usted considera más adecuado para sus datos, luego genere
10 Validaciones Cruzadas con 6 grupos para los métodos SVM, KNN, Bayes, LDA, QDA,
Árboles, Bosques, Potenciación y Redes Neuronales. Grafique las 10 iteraciones para todos los métodos en el mismo gráfico. ¿Se puede determinar con claridad cuál método
es el mejor?
2
Descargar