UNIVERSIDAD DE COSTA RICA MAESTRÍA ACADÉMICA EN BIOINFORMÁTICA Y BIOLOGÍA DE SISTEMAS MINERÍA DE DATOS PARA BIOINFORMÁTICA PF-5028 Laboratorio 5 1 Tasa de error El desempeño de un algoritmo de minería de datos sobre el conjunto de entrenamiento (training ) no es un buen estimador del error de dicho algoritmo en datos nuevos. En el caso particular de clasicación, es natural medir el desempeño del clasicador en términos de la tasa de error. La tasa de error consiste en considerar como un éxito cuando una instancia es clasicada correctamente, y como un error en caso contrario. Así, la tasa de error se dene como la proporción de errores sobre el número total de instancias. E= |{errores}| |{instancias}| (1) 2 Hold-out Cuando la cantidad de muestras para utilizar en el algoritmo de minería de datos es grande, entonces se reducen los problemas de lograr obtener una muestra más representativa de la población bajo estudio, reduciendo así el error obtenido en el proceso. El mayor problema se presenta cuando la cantidad de datos a utilizar es reducida, por ello algunas técnicas son utilizadas para estimar a partir de un proceso de entrenamiento y prueba (training y testing ), el error de clasicación en datos desconocidos (propiedad de generalización). Hold-out En este método se reserva una cantidad para entrenamiento, y otra para prueba. De ser necesario una parte para validación, lo cual implica un ajuste de los parámetros aprendidos. Comúnmente en este método, se selecciona aleatoriamente la muestras que van a cada subconjunto. Utilice el método de hold-out para realizar la clasicación de los datos de iris.data. Utilice al menos dos métodos de clasicación distintos. Describa con detalle el procedimiento seguido. 3 Hold-out con Stratication Si se tiene mala suerte, las muestras que representan cada clase en cada subconjunto (testing, training) no estarán uniformemente representadas, con lo cual el algoritmo de clasicación (u otro) no será capaz de generar funciones adecuadas de particionamiento. Para evitar este problema, se utiliza stratication. Stratication Consiste en muestrear apropiadamente los datos para garantizar que cada clase será bien representada en la muestra que se utilizará para el algoritmo de minería de datos. 1 UNIVERSIDAD DE COSTA RICA MAESTRÍA ACADÉMICA EN BIOINFORMÁTICA Y BIOLOGÍA DE SISTEMAS MINERÍA DE DATOS PARA BIOINFORMÁTICA PF-5028 Laboratorio 5 Utilizando los mismos dos métodos de clasicación anteriores, aplique stratication y compare los resultados obtenidos con aquellos de las sección anterior. 4 Cross-Validation La stratication provee únicamente un mecanismo muy básico para evitar los problemas de muestreo, por lo que una forma más robusta y general es requerida. Por ejemplo, utilizando el método de repeated hold-out, en donde se repite todo el procedimiento de entrenamiento y de prueba varias veces utilizando distintas muestras aleatorias. En cada iteración una proporción de datos se utiliza para entrenamiento y el resto para prueba. Esto permite obtener una estimación de la tasa de error más precisa. Cross-Validation Consiste en una variación del método repeated hold-out, en la cual se predeter- mina un número jo de particiones de los datos K , luego los datos son divididos de manera aproximadamente igual en este número de particiones, y en cada iteración k de K , cada partición es utilizada para prueba y el resto para entrenamiento. Utilizando los mismos dos métodos de clasicación anteriores, aplique cross-validation para 3, 5, 10 y 20 particiones, y compare los resultados obtenidos con aquellos de las sección anterior. 5 Cross-Validation con Stratication Cross-Validation con Stratication Consiste en aplicar conjuntamente los métodos de crossvalidation y stratication. Utilizando los mismos dos métodos de clasicación anteriores, aplique cross-validation con stratication para 3, 5, 10 y 20 particiones, y compare los resultados obtenidos con aquellos obtenidos anteriormente. Finalmente, utilizando los datos de imágenes de cáncer repita todos los experimentos anteriores, compare con los obtenidos con iris.data y concluya. 2