La minería de datos - Cinvestav

Anuncio
Línea de Investigación
Dr. Iván López Arévalo
Laboratorio de Tecnologías de Información
Cinvestav – Tamaulipas
ilopez@cinvestav.mx
www.tamps.cinvestav.mx/~ilopez
I. Introducción
En este documento presento de manera muy general las líneas de investigación que trabajo en el Laboratorio de Tecnologías de Información del Cinvestav – Tamaulipas. En general, mi línea de trabajo es Inteligencia Artificial, pero la Inteligencia Artificial es un área muy amplia como la Computación misma. Se puede situar a la Inteligencia Artificial en casi todos los aspectos relacionados con la Computación. La Inteligencia Artificial tiene muchísimas subáreas, dentro de las cuales está la Minería de Datos (que a su vez está dentro del subárea de Sistemas Inteligentes y dentro de ésta en Representación y Manejo de Conocimiento). Fundamentalmente estoy enfocado dentro del subárea de Minería de Datos, particularmente trabajo las áreas de:
Minería de Datos
> Minería Web
> Minería de Textos
> Minería de Datos Médicos
> Minería de Datos Distribuida
Esto puede verse desde diferentes contextos, como muestran las Figuras 1 y 2.
Figura 1. Contexto A de la Minería de Datos
Figura 2. Contexto B de la Minería de Datos
En general la Minería de Datos involucra diversos temas de otras áreas de la Computación, como muestra la Figura 3.
Figura 3. Temas relacionados con Minería de Datos.
La Minería de Datos de define como:
El conjunto de técnicas para la representación, análisis, manejo y descubrimiento de conocimiento a partir de diversas fuentes de datos (bases de datos, Web, archivos, sensores, etc.). Incluye aspectos de estadística, manejo de conocimiento, computación de alto rendimiento, algoritmos genéticos, redes neuronales, sistemas de soporte a la toma de decisiones, sistemas de información, sistemas distribuidos y bases de datos. El conocimiento extraído se emplea en la toma de decisiones. En la actual sociedad de la información, donde cada día a día se multiplica la cantidad de datos almacenados casi de forma exponencial, la Minería de Datos es una herramienta fundamental para analizarlos y explotarlos de forma eficaz para los objetivos de cualquier organización. La Minería de Datos hace uso de todas las técnicas que puedan aportar información útil, desde un sencillo análisis gráfico, pasando por métodos estadísticos más o menos complejos, complementados con métodos y algoritmos del campo de la Inteligencia Artificial y el aprendizaje automático que resuelven problemas típicos de agrupamiento automático, clasificación, predicción de valores, detección de patrones, asociación de atributos, etc. Es, por tanto, un campo multidisciplinar que cubre numerosas áreas y se aborda desde múltiples puntos de vista, como la estadística, la informática o la ingeniería. II. Minería de Datos en el LTI
A continuación se describen las áreas de Minería de Datos que trabajo en el Laboratorio de Tecnologías de Información (LTI) del Cinvestav ­ Tamaulipas.
Minería Web
La Minería Web es el proceso de descubrir y analizar información útil de los documentos de la Web. Sin embargo, se puede definir como el descubrimiento y análisis de información relevante que involucra el uso de técnicas y acercamientos basados en la minería de datos orientados al descubrimiento y extracción automática de información de documentos y servicios de la Web, teniendo en consideración el comportamiento y preferencias del usuario. En la Minería Web los datos pueden ser coleccionados en diferente niveles: en el servidor, en el cliente (cookies), en los servidores proxys (log files), etc. En general el proceso es: 1) recuperar los documentos relevantes (noticias, newsgroups, newswires, páginas html, etc.); 2) transformar los documentos a un formato fácil de leer y de analizar por la computadora y 3) determinar las tendencias/patrones de los documentos.
Minería de Textos (Text mining)
La Minería de Textos consiste en encontrar información interesante en grandes conjuntos de datos textuales (archivos digitales de texto). Un texto es fácil y difícil de manejar a la misma vez. Es difícil porque los conceptos abstractos que contiene el texto son difíciles de representar en una computadora. Es fácil porque todos los textos tienen una gran cantidad de datos redundantes. Existen diferentes niveles para tratar con el texto: palabra a palabra, frase, documento, conjunto de documentos y conjunto de documentos con enlaces. Cada nivel de procesamiento revelará diferente información sobre el texto que contiene.
Minería de Datos Médicos
Al igual que otras vertientes, la Minería de Datos en Medicina está enfocada a encontrar tendencias relevantes, modelos y relaciones entre enfermedades y enfermedades, pacientes y pacientes, pacientes y enfermedades y todas las combinaciones posibles entre pacientes, enfermedades, tratamientos, medicamentos, etc. En general, aquellos aspectos que no son potencialmente visibles con métodos clínico­médicos. Actualmente existe gran cantidad de datos que pueden analizarse y cada vez más y más es necesario extraer conocimiento útil para la correcta toma de decisiones médicas acerca de diagnóstico, tratamiento y pronóstico de enfermedades. Esta área es mucho más compleja que otras debido a las fuentes de información, ya que esta información es redundante, enfocada al humano, multiatributos, incompleta y dependiente del tiempo.
Minería de Datos Distribuida
Esta área se enfoca a intentar resolver el problema de la necesidad de espacio y capacidad de cómputo que cada vez más requieren las aplicaciones de Minería de Datos. Aquí se consideran grandes cantidades de datos provenientes de diversos lugares geográficamente separados. Tiene como objetivos: 1) hacer sistemas escalables mediante el desarrollo de mecanismos que distribuyan las cargas de trabajo de manera flexible y 2) hacer el análisis realmente distribuido de datos inherentemente diseminados en diversas fuentes de datos, esto solventa el problema del ineficiente procesamiento centralizado y aspectos seguridad para este tipo de datos.
Si deseas más información sobre proyectos de Residencia Profesional y/o Proyecto de Titulación, visita la página:
www.tamps.cinvestav.mx/~ilopez/proyectos/proyectosLicenciatura.html
Descargar