Minería de datos en el análisis funcional del genoma Dr. Julio Di Rienzo Resumen La disponibilidad de tecnologías de secuenciación de genomas propulsó el desarrollo de la genómica estructural generando grandes bases de datos que describen la estructura genómica de un número creciente de organismos. Conocer estas secuencias es solo el comienzo del largo camino que conduce a interpretar la información codificada en tales genomas y describir su función. Se prevé que la genómica funcional genere aportes revolucionarios tanto para el desarrollo del conocimiento básico como de innovación biotecnológica. Las tecnologías utilizadas por la genómica funcional requieren cuantioso trabajo de laboratorio a una escala que sólo ha sido posible alcanzar gracias a la automatización. Estas tecnologías generan enormes cantidades de datos cuya interpretación constituye nuevos desafíos metodológicos y tecnológicos. El enfoque estadístico tradicional no satisface totalmente las nuevas demandas que emergen de este campo y diferentes paradigmas en el análisis de datos están emergiendo. Un ejemplo es el relacionado a la tecnología de micromatrices de ADN cuyas mayores limitaciones recopiladas recientemente radican en el análisis de datos. Los métodos de análisis disponibles en paquetes bioinformático-estadísticos (muchos de ellos de dominio público) llevan a pensar erróneamente que los problemas de análisis de datos están mayormente resueltos. Aún cuando en los últimos años se han hecho muchas contribuciones en este campo, no existen soluciones ampliamente aceptadas y experimentos comparativos dentro y entre plataformas revelan la variabilidad inherente a estas metodologías haciéndose cada vez mas evidente la dificultad del análisis e interpretación de sus resultados (Michiels et al., 2005). Más aún, la sobre oferta de métodos representa un problema para los usuarios finales que tienen dificultades a la hora de seleccionar alguno de ellos (Lee et al., 2005). El objetivo de este proyecto es la evaluación, adaptación y desarrollo de metodologías y tecnologías para el procesamiento inteligente de datos que generan los experimentos con micromatrices de ADN. Las problemáticas que se abordarán son las de normalización, identificación de genes con excepción diferencial y preselección de genes en clasificación supervisada. El trabajo de investigación se centrará, aunque no de manera exclusiva, en la aproximación por modelos. Esta es una línea de investigación que ha sido pobremente explorada hasta el momento ya que las primeras metodologías se basaron en criterios heurísticos provenientes del área informática. Las técnicas desarrolladas se implementarán en un paquete de dominio público basado R.