Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central CAS Sesión 1 Introducción MÉTODOS ESTADÍSTICOS M A E S T R Í A E N A N A L Í T I C A Facultad de Ingeniería. César Augusto Serna M. csernam@ucentral.edu.co D E D AT O S Contacts Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central CAS Sesión 1 Introducción Contenido CONTENIDO El aprendizaje automático, en esencia, se ocupa de algoritmos que transforman la información en inteligencia procesable. Este hecho hace que el Machine Learning (ML) o aprendizaje automático se adapte bien a la era actual de Big Data. Sin el ML, sería casi imposible mantenerse al día con el flujo masivo de información, y dada la creciente importancia de los softwares de lenguaje y programación estadística tales como Python y R, un entorno de programación estadística multiplataforma y de costo cero, nunca ha habido un mejor momento para comenzar a utilizar el aprendizaje automático. Now we will learn 1 Introducción 2 Reducción de dimensión Aprendizaje no supervisado y sus aplicaciones Técnicas de reducción de Dimensionalidad y creación de 4 Aprendizaje Supervisado 5 Estimaciones de incertidumbre de clasificadores 3 Métodos de asociación y Agrupamiento de sujetos. partir de modelos Evaluación de la calidad de ajuste variables sintéticas Agrupamiento Métodos de clasificación a 6 Machine Learning Algoritmos de aprendizaje de máquina supervisado y sus aplicaciones CAS Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central Introducción En este curso se construyen los fundamentos teóricos de los principales Métodos de Estadística Exploratoria Multidimensional y se trabajan sus aplicaciones, utilizando software especializado de uso libre y comercial. Para el aprendizaje de los métodos estadísticos, se debe realizar múltiples aplicaciones de ensayos y/o experimentos utilizando softwares de Lenguaje y Programación Estadística. Por lo tanto, el uso de herramientas estadísticas, junto con métodos computaciones, permite la creación de técnicas que se constituyen en lo que hoy se llama el Aprendizaje de Máquinas (Machine Learning). En síntesis, Machine Learning es una colección de algoritmos y técnicas que se utilizan para crear sistemas computacionales que aprenden de los datos para hacer predicciones e inferencias. Sesión 1 Introducción Aprendizaje no Supervisado CAS Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central Introducción Sesión 1 X1 Métodos NO Supervisados X2 Introducción X3 ... Xo Aprendizaje no Supervisado Xp 1 2 3 4 5 6 7 8 9 10 . . . n Métodos Supervisados X1 X2 X3 ... Xo Xp X1 1 2 3 4 5 6 7 8 9 10 . . . 1 2 3 4 5 6 7 8 9 10 . . . n n X2 X3 ... Xo Y CAS Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central Sesión 1 Introducción Aprendizaje no Supervisado Aprendizaje No Supervisado Hay situaciones en las que se desconoce la clase / evento de salida deseado para los datos históricos. El objetivo en tales casos sería estudiar los patrones en el conjunto de datos de entrada para obtener una mejor comprensión e identificar patrones similares que se pueden agrupar en clases o eventos específicos. Como estos tipos de algoritmos no requieren la intervención previa de los expertos en la materia, se denominan aprendizaje no supervisado. Veamos algunos ejemplos de aprendizaje no supervisado. Marco de aprendizaje automático no supervisado En el aprendizaje automático no supervisado, los patrones, las asociaciones, las relaciones y los clústeres se extraen de los datos. Los procedimientos relacionados con el escalado, la extracción, la selección y la reducción de dimensiones de características son los mismos que los del aprendizaje supervisado, pero en este caso no existe el concepto de datos pre-etiquetados. Los datos etiquetados no se emplean para entrenar el modelo sin supervisión. 1 2 3 4 5 6 7 8 9 10 . . . n X1 2 19 2 1 29 21 24 27 5 3 15 23 21 4 X2 29 18 21 24 6 18 23 20 18 18 8 16 27 29 X3 24 19 9 25 11 27 29 29 4 3 18 16 20 3 ... Xo 8 23 2 27 5 13 6 26 24 30 24 20 11 19 Xp 29 30 11 4 28 19 6 5 28 27 12 15 2 5 Training Test CAS Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central Aprendizaje No Supervisado Esta clase de algoritmos intenta aprender estructuras, patrones y relaciones latentes inherentes a partir de los datos de entrada sin ninguna salida / etiqueta asociada (supervisión humana). Los algoritmos no supervisados son útiles cuando no tenemos la libertad de un conjunto de entrenamiento que contiene las señales o etiquetas de salida correspondientes. En muchos escenarios del mundo real, los conjuntos de datos están disponibles sin señales de salida y es difícil etiquetarlos manualmente. Por lo tanto, los algoritmos no supervisados son útiles para cubrir esas lagunas. La agrupación, la reducción de dimensionalidad, la minería de reglas de asociación, etc., son algunos de los principales tipos de algoritmos de aprendizaje no supervisados. Sesión 1 Introducción Aprendizaje no Supervisado Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central CAS Sesión 1 Reducción de dimensión Análisis de Componentes Principales Reducción de Dimensión Hay muchas razones por las que nos interesa reducir la dimensionalidad, esto como un paso de pre-procesamiento independiente, entre otras: En la mayoría de los algoritmos de aprendizaje, la complejidad se basa en el número de dimensiones de entrada, así como en el tamaño de la muestra de datos, y para la memoria y el cálculo reducidos, estamos interesados en reducir la dimensionalidad del problema. La reducción de dimensiones también reduce la complejidad del algoritmo de aprendizaje durante las pruebas. Si una entrada no es informativa, podemos ahorrarnos el costo extrayéndola. Los modelos simples son más robustos en pequeños conjuntos de datos. Los modelos simples tienen menos varianza; es decir, divergen menos dependiendo de muestras específicas, incluidos valores atípicos, ruido, etc. Si los datos se pueden representar con menos características, podemos tener una mejor idea del proceso que motiva los datos, y esto asigna la extracción de conocimiento. Si los datos se pueden describir con menos dimensiones sin pérdida significativa de información, se pueden graficar y analizar visualmente en busca de estructura y valores atípicos. Los argumentos cruciales para las técnicas de reducción de dimensionalidad (o aprendizaje múltiple) son: Computacional: Comprimir los datos originales como un paso de pre-procesamiento para acelerar las operaciones posteriores en los datos. Visualización: Para visualizar los datos para un análisis tentativo mapeando los datos de entrada en espacios bidimensionales o tridimensionales. Lemoria. Home Products Contacts Principal Componentes Analysis (PCA) El Análisis de Componentes Principales es un método algebraico de construcción de características o variables sintéticas, en el que las nuevas características (variables) se construyen como combinaciones lineales de las características iniciales. El primer componente principal se especifica mediante la dirección de la varianza máxima en los datos; el segundo componente principal es la dirección de la varianza máxima ortogonal al primer componente, y así sucesivamente. El PCA es una técnica no supervisada que no utiliza la información de salida, y su criterio es maximizar la varianza. PCA es una de las clases de transformadores de scikit-learn, en la que el modelo que utiliza los datos de entrenamiento se ajusta antes de que tanto los datos de entrenamiento como los datos de prueba se transformen utilizando los mismos parámetros del modelo. learn now Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central CAS Sesión 1 Reducción de dimensión Análisis de Componentes Principales Principal Componentes Analysis (PCA) Principal Component Analysis (PCA) es un método estadístico que permite simplificar la complejidad de espacios muestrales con muchas dimensiones a la vez que conserva su información. Supóngase que existe una muestra con n individuos cada uno con p variables (X1, X2, …, Xp), es decir, el espacio muestral tiene p dimensiones. El PCA permite encontrar un número de factores subyacentes (Z < p) que explican aproximadamente lo mismo que las p variables originales. Donde antes se necesitaban p valores para caracterizar a cada individuo, ahora bastan Z valores. Cada una de estas Z nuevas variables recibe el nombre de Componente Principal. El método de PCA permite por lo tanto “condensar” la información aportada por múltiples variables en solo unas pocas componentes. Esto lo convierte en un método muy útil de aplicar previa utilización de otras técnicas estadísticas. Aun así no hay que olvidar que sigue siendo necesario disponer del valor de las variables originales para calcular las componentes. Algebraicamente: X1 X= 1 2 3 4 5 6 7 8 9 10 . . . n 2 19 2 1 29 21 24 27 5 3 15 23 21 4 X2 X3 . . . 29 24 18 19 21 9 24 25 6 11 18 27 23 29 20 29 18 4 18 3 8 18 16 16 27 20 29 3 Xo 8 23 2 27 5 13 6 26 24 30 24 20 11 19 Xp 29 30 11 4 28 19 6 5 28 27 12 15 2 5 X* = 1 2 3 4 5 6 7 8 9 10 . . . n X1 -12 5 -12 -13 15 7 10 13 -9 -11 1 9 7 -10 X2 9.36 -1.64 1.36 4.36 -13.6 -1.64 3.36 0.36 -1.64 -1.64 -11.6 -3.64 7.36 9.36 X3 ... 7.07 2.07 -7.93 8.07 -5.93 10.1 12.1 12.1 -12.9 -13.9 1.07 -0.93 3.07 -13.9 Xo -9 6 -15 10 -12 -4 -11 9 7 13 7 3 -6 2 Xp 13.2 14.2 -4.8 -12 12.2 3.21 -9.8 -11 12.2 11.2 -3.8 -0.8 -14 -11 Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central CAS Sesión 1 Reducción de dimensión Análisis de Componentes Principales Principal Componentes Analysis (PCA) Algebraicamente: Se trata de un sistema homogéneo que sólo tiene solución si el determinante de la matriz de los coeficientes es nulo, es decir, |S-λI|=0. Pero la expresión |S−λI|=0 es equivalente a decir que λ es un valor propio de la matriz S. En general, la ecuación |S−λI| = 0 tiene n raíces λ1, λ2, ..., λn, que pueden ser ordenadas de mayor a menor λ1>λ2> ...>λn. Estas raíces o soluciones del sistema son las llamadas Valores Propios o Eigenvalores. Valores Propios Por cada Valor Propio encontrado se calcula un vector propio asociado, esto a través de una ecuación muy similar a la de la Ecuación Característica, de tal suerte que: [ S – λI ] (a11, a21, …, ap1)’ = 0 Proporcionando un sistema de ecuaciones de la forma: Entonces, como hay tantos Eigenvectores como Eigenvalores propios, se tiene que: Si cada vector ei se normaliza, y se multiplica por la raíz cuadrada de su valor propio, se tendría la expresión necesaria para calcular cada Componente Principal: Y resultan tantos Componentes Principales como variables originales hay en el estudio Cuya solución, para el primer eigenvalor λ1, es un vector propio (Eigenvector) de la forma: Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central CAS Sesión 1 Reducción de dimensión Análisis de Componentes Principales Principal Componentes Analysis (PCA) En síntesis: Si hay tantas variables nuevas (Componentes Principales Z) como variables originales de estudio, ¿dónde está la reducción de dimensión? X1 1 2 3 4 5 6 7 8 9 10 . . . n 2 19 2 1 29 21 24 27 5 3 15 23 21 4 X2 X3 ... 29 24 18 19 21 9 24 25 6 11 18 27 23 29 20 29 18 4 18 3 8 18 16 16 27 20 29 3 Xo 8 23 2 27 5 13 6 26 24 30 24 20 11 19 Xp 29 30 11 4 28 19 6 5 28 27 12 15 2 5 Z1 1 -0.08 2 0.64 3 -0.48 4 0.33 5 0.84 6 0.02 7 0.95 8 0.08 9 -0.81 10 0.61 . 0.49 . 0.73 . -0.68 n 0.85 Z2 0.77 -0.24 0.26 0.82 0.8 -0.31 0.76 0.76 0.39 0.7 0.24 -0.79 0.95 0.21 Z3 ... 0.58 0.49 0.27 -0.98 0.28 0.81 0.2 -0.97 0.54 0.06 0.21 0.54 -0.16 0.25 Zo 0.44 0.2 -0.11 0.98 0.66 0.17 0.3 0.98 0.34 0.33 -0.68 0.35 0.41 0.86 Zp 0.24 0.65 0.43 0.45 -0.1 0.58 0.65 0.9 0.24 -0.8 0.07 0.97 0.03 -0.8 Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central CAS Sesión 1 Reducción de dimensión Análisis de Componentes Principales Principal Componentes Analysis (PCA) Detalles Supuestos: Propiedades: Aplicaciones: Descripción Descripción Descripción Condiciones iniciales y Dada la estructura de su Por la naturaleza de su requerimientos matemático - construcción, los Componentes realización, existen diversos estadísticos mínimos para Principales gozan de ciertas contextos donde aplicar un aplicar un PCA a sus conjuntos propiedades matemáticas Análisis de Componentes o bases de datos. demostrativas. Principales Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central CAS Sesión 1 Reducción de dimensión Análisis de Componentes Principales Principal Componentes Analysis (PCA) Detalles Supuestos: Las variables iniciales deben ser continuas (aunque las variables ordinales funcionan bien). Debe haber una relación lineal entre todas las variables. La razón de esta suposición es que un PCA se basa en los coeficientes de correlación de Pearson y, como tal, debe haber una relación lineal entre las variables (supuesto relajado). Debe tener un muestreo adecuado, lo que significa que para que el PCA produzca un resultado confiable, se requiere un tamaño de muestra suficientemente grandes. Descripción Condiciones iniciales y Los datos deben ser adecuados para la reducción de dimensión, es decir, se necesita tener correlaciones adecuadas entre las variables para que las mismas se reduzcan a un número menor de componentes. requerimientos matemático estadísticos mínimos para aplicar un PCA a sus conjuntos o bases de datos. No debe haber valores atípicos significativos, pues ellos pueden tener una influencia desproporcionada en el cálculo de los Componentes Principales. Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central CAS Sesión 1 Reducción de dimensión Principal Componentes Analysis (PCA) Detalles Propiedades: Descripción Dada la estructura de su construcción, los Componentes Principales gozan de ciertas propiedades matemáticas demostrativas. Análisis de Componentes Principales Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central CAS Sesión 1 Reducción de dimensión Principal Componentes Analysis (PCA) Detalles Propiedades: Descripción Dada la estructura de su construcción, los Componentes Principales gozan de ciertas propiedades matemáticas demostrativas. Análisis de Componentes Principales Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central CAS Sesión 1 Reducción de dimensión Análisis de Componentes Principales Principal Componentes Analysis (PCA) Detalles Supuestos: Propiedades: Aplicaciones: Descripción Descripción Descripción Condiciones iniciales y Dada la estructura de su Por la naturaleza de su requerimientos matemático - construcción, los Componentes realización, existen diversos estadísticos mínimos para Principales gozan de ciertas contextos donde aplicar un aplicar un PCA a sus conjuntos propiedades matemáticas Análisis de Componentes o bases de datos. demostrativas. Principales CAS Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central Sesión 1 Reducción de dimensión Análisis de Componentes Principales PRUEBA COMPUTACIONAL 01 Un breve ejemplo de cómo implementar un Análisis de Componentes Principales en Software de Lenguaje y Programación Estadística. Análisis de Componentes Principales: Decathlon library(FactoMineR) library(factoextra) library(ggplot2) data(decathlon2) head(decathlon2) fix(decathlon2) # Seleccionando un subconjunto de datos de esta base: decathlon2.active<-decathlon2[1:23, 1:10] fix(decathlon2.active) res.pca<-PCA(decathlon2.active, graph = F) # res.pca eig.val<-get_eigenvalue(res.pca) eig.val # Gráficode Sedimentación o Dedrograma: fviz_eig(res.pca, addlabels = T, ylim=c(0, 50)) # Representación en los dos primeros componentes: fviz_pca(res.pca, col.var="cos2", gradient.cols=c("#00AFBB", "#E7B800", "#FC4E07"), repel=T) CAS Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central Sesión 1 Reducción de dimensión Análisis de Componentes Principales PRUEBA COMPUTACIONAL 02 Un breve ejemplo de cómo implementar un Análisis de Componentes Principales en Software de Lenguaje y Programación Estadística. Análisis de Componentes Principales: Rotando los Ejes de un ACP # ==================================================== # Ejemplo 2: Rotando los Ejes de un ACP # :::::::::::::::::::::::::::::::::::::::::::::::::::: library(tidyverse) data("iris") X <- iris %>% select(Sepal.Length,Petal.Length) %>% as.matrix() # ::::::::::::::::::::::::::::::::::::::::::::::::::::: # Calcule la matriz de covarianza y la correspondiente # descomposición de los valores propios: # ::::::::::::::::::::::::::::::::::::::::::::::::::::: S <- cov(X) S CAS Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central Sesión 1 Reducción de dimensión Análisis de Componentes Principales PRUEBA COMPUTACIONAL 03 Un breve ejemplo de cómo implementar un Análisis de Componentes Principales en Software de Lenguaje y Programación Estadística. Análisis de Componentes Principales: USAir Lemoria. Home THANKS S E E M A E S T R Í A Y O U E N N E X T A N A L Í T I C A Facultad de Ingeniería. César Augusto Serna M. csernam@ucentral.edu.co T I M E D E D AT O S Products Contacts