Subido por aleiyed_y16

1. Primera Sesion MÉTODOS ESTADÍSTICOS MAD - 2021-II

Anuncio
Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central
CAS
Sesión 1
Introducción
MÉTODOS ESTADÍSTICOS
M A E S T R Í A
E N
A N A L Í T I C A
Facultad de Ingeniería.
César Augusto Serna M.
csernam@ucentral.edu.co
D E
D AT O S
Contacts
Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central
CAS
Sesión 1
Introducción
Contenido
CONTENIDO
El aprendizaje automático, en esencia, se ocupa de algoritmos que transforman la información en inteligencia procesable. Este hecho hace que el Machine Learning (ML)
o aprendizaje automático se adapte bien a la era actual de Big Data. Sin el ML, sería casi imposible mantenerse al día con el flujo masivo de información, y dada la
creciente importancia de los softwares de lenguaje y programación estadística tales como Python y R, un entorno de programación estadística multiplataforma y de costo
cero, nunca ha habido un mejor momento para comenzar a utilizar el aprendizaje automático.
Now we will learn
1
Introducción
2
Reducción de dimensión
Aprendizaje no supervisado y
sus aplicaciones
Técnicas de reducción de
Dimensionalidad y creación de
4
Aprendizaje Supervisado
5
Estimaciones de incertidumbre
de clasificadores
3
Métodos de asociación y
Agrupamiento de sujetos.
partir de modelos
Evaluación de la calidad de
ajuste
variables sintéticas
Agrupamiento
Métodos de clasificación a
6
Machine Learning
Algoritmos de aprendizaje de
máquina supervisado y sus
aplicaciones
CAS
Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central
Introducción
En este curso se construyen los fundamentos teóricos de los principales Métodos de Estadística
Exploratoria Multidimensional y se trabajan sus aplicaciones, utilizando software especializado de
uso libre y comercial.
Para el aprendizaje de los métodos estadísticos, se debe realizar múltiples aplicaciones de ensayos
y/o experimentos utilizando softwares de Lenguaje y Programación Estadística. Por lo tanto, el uso
de herramientas estadísticas, junto con métodos computaciones, permite la creación de técnicas que
se constituyen en lo que hoy se llama el Aprendizaje de Máquinas (Machine Learning).
En síntesis, Machine Learning es una colección de algoritmos y técnicas que se utilizan para crear
sistemas computacionales que aprenden de los datos para hacer predicciones e inferencias.
Sesión 1
Introducción
Aprendizaje no Supervisado
CAS
Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central
Introducción
Sesión 1
X1
Métodos NO Supervisados
X2
Introducción
X3
...
Xo
Aprendizaje no Supervisado
Xp
1
2
3
4
5
6
7
8
9
10
.
.
.
n
Métodos Supervisados
X1
X2
X3
...
Xo
Xp
X1
1
2
3
4
5
6
7
8
9
10
.
.
.
1
2
3
4
5
6
7
8
9
10
.
.
.
n
n
X2
X3
...
Xo
Y
CAS
Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central
Sesión 1
Introducción
Aprendizaje no Supervisado
Aprendizaje No Supervisado
Hay situaciones en las que se desconoce la clase / evento de salida deseado para los
datos históricos. El objetivo en tales casos sería estudiar los patrones en el conjunto
de datos de entrada para obtener una mejor comprensión e identificar patrones
similares que se pueden agrupar en clases o eventos específicos. Como estos tipos
de algoritmos no requieren la intervención previa de los expertos en la materia, se
denominan aprendizaje no supervisado. Veamos algunos ejemplos de aprendizaje no
supervisado.
Marco de aprendizaje automático no supervisado
En el aprendizaje automático no supervisado, los patrones, las asociaciones, las
relaciones y los clústeres se extraen de los datos. Los procedimientos relacionados
con el escalado, la extracción, la selección y la reducción de dimensiones de
características son los mismos que los del aprendizaje supervisado, pero en este
caso no existe el concepto de datos pre-etiquetados. Los datos etiquetados no se
emplean para entrenar el modelo sin supervisión.
1
2
3
4
5
6
7
8
9
10
.
.
.
n
X1
2
19
2
1
29
21
24
27
5
3
15
23
21
4
X2
29
18
21
24
6
18
23
20
18
18
8
16
27
29
X3
24
19
9
25
11
27
29
29
4
3
18
16
20
3
...
Xo
8
23
2
27
5
13
6
26
24
30
24
20
11
19
Xp
29
30
11
4
28
19
6
5
28
27
12
15
2
5
Training
Test
CAS
Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central
Aprendizaje No Supervisado
Esta clase de algoritmos intenta aprender estructuras, patrones y relaciones latentes inherentes a partir de
los datos de entrada sin ninguna salida / etiqueta asociada (supervisión humana).
Los algoritmos no supervisados ​son útiles cuando no tenemos la libertad de un conjunto de entrenamiento
que contiene las señales o etiquetas de salida correspondientes. En muchos escenarios del mundo real, los
conjuntos de datos están disponibles sin señales de salida y es difícil etiquetarlos manualmente. Por lo tanto,
los algoritmos no supervisados ​son útiles para cubrir esas lagunas.
La agrupación, la reducción de dimensionalidad, la minería de reglas de asociación, etc., son algunos de los
principales tipos de algoritmos de aprendizaje no supervisados.
Sesión 1
Introducción
Aprendizaje no Supervisado
Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central
CAS
Sesión 1
Reducción de dimensión
Análisis de Componentes
Principales
Reducción de Dimensión
Hay muchas razones por las que nos interesa reducir la dimensionalidad, esto como un paso de pre-procesamiento independiente, entre otras:
 En la mayoría de los algoritmos de aprendizaje, la complejidad se basa en el número de dimensiones de entrada, así como en el tamaño de la muestra de datos, y para la
memoria y el cálculo reducidos, estamos interesados ​en reducir la dimensionalidad del problema. La reducción de dimensiones también reduce la complejidad del algoritmo de
aprendizaje durante las pruebas.
 Si una entrada no es informativa, podemos ahorrarnos el costo extrayéndola.
 Los modelos simples son más robustos en pequeños conjuntos de datos. Los modelos simples tienen menos varianza; es decir, divergen menos dependiendo de muestras
específicas, incluidos valores atípicos, ruido, etc.
 Si los datos se pueden representar con menos características, podemos tener una mejor idea del proceso que motiva los datos, y esto asigna la extracción de conocimiento.
 Si los datos se pueden describir con menos dimensiones sin pérdida significativa de información, se pueden graficar y analizar visualmente en busca de estructura y valores
atípicos.
Los argumentos cruciales para las técnicas de reducción de dimensionalidad (o aprendizaje múltiple) son:
Computacional: Comprimir los datos originales como un paso de pre-procesamiento para acelerar las operaciones posteriores en los datos.
Visualización: Para visualizar los datos para un análisis tentativo mapeando los datos de entrada en espacios bidimensionales o tridimensionales.
Lemoria.
Home
Products
Contacts
Principal
Componentes
Analysis (PCA)
El Análisis de Componentes Principales es un método algebraico de construcción de características
o variables sintéticas, en el que las nuevas características (variables) se construyen como
combinaciones lineales de las características iniciales. El primer componente principal se especifica
mediante la dirección de la varianza máxima en los datos; el segundo componente principal es la
dirección de la varianza máxima ortogonal al primer componente, y así sucesivamente.
El PCA es una técnica no supervisada que no utiliza la información de salida, y su criterio es
maximizar la varianza.
PCA es una de las clases de transformadores de scikit-learn, en la que el modelo que utiliza los
datos de entrenamiento se ajusta antes de que tanto los datos de entrenamiento como los datos de
prueba se transformen utilizando los mismos parámetros del modelo.
learn now
Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central
CAS
Sesión 1
Reducción de dimensión
Análisis de Componentes
Principales
Principal Componentes Analysis (PCA)
Principal Component Analysis (PCA) es un método estadístico que permite simplificar la complejidad de espacios muestrales con muchas dimensiones a la vez que conserva
su información. Supóngase que existe una muestra con n individuos cada uno con p variables (X1, X2, …, Xp), es decir, el espacio muestral tiene p dimensiones. El PCA
permite encontrar un número de factores subyacentes (Z < p) que explican aproximadamente lo mismo que las p variables originales.
Donde antes se necesitaban p valores para caracterizar a cada individuo, ahora bastan Z valores. Cada una de estas Z nuevas variables recibe el nombre de Componente
Principal. El método de PCA permite por lo tanto “condensar” la información aportada por múltiples variables en solo unas pocas componentes. Esto lo convierte en un
método muy útil de aplicar previa utilización de otras técnicas estadísticas. Aun así no hay que olvidar que sigue siendo necesario disponer del valor de las variables
originales para calcular las componentes.
Algebraicamente:
X1
X=
1
2
3
4
5
6
7
8
9
10
.
.
.
n
2
19
2
1
29
21
24
27
5
3
15
23
21
4
X2
X3 . . .
29
24
18
19
21
9
24
25
6
11
18
27
23
29
20
29
18
4
18
3
8
18
16
16
27
20
29
3
Xo
8
23
2
27
5
13
6
26
24
30
24
20
11
19
Xp
29
30
11
4
28
19
6
5
28
27
12
15
2
5
X* =
1
2
3
4
5
6
7
8
9
10
.
.
.
n
X1
-12
5
-12
-13
15
7
10
13
-9
-11
1
9
7
-10
X2
9.36
-1.64
1.36
4.36
-13.6
-1.64
3.36
0.36
-1.64
-1.64
-11.6
-3.64
7.36
9.36
X3
...
7.07
2.07
-7.93
8.07
-5.93
10.1
12.1
12.1
-12.9
-13.9
1.07
-0.93
3.07
-13.9
Xo
-9
6
-15
10
-12
-4
-11
9
7
13
7
3
-6
2
Xp
13.2
14.2
-4.8
-12
12.2
3.21
-9.8
-11
12.2
11.2
-3.8
-0.8
-14
-11
Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central
CAS
Sesión 1
Reducción de dimensión
Análisis de Componentes
Principales
Principal Componentes Analysis (PCA)
Algebraicamente:
Se trata de un sistema homogéneo que sólo tiene solución si el determinante de la matriz de los coeficientes
es nulo, es decir, |S-λI|=0. Pero la expresión |S−λI|=0 es equivalente a decir que λ es un valor propio de la
matriz S.
En general, la ecuación |S−λI| = 0 tiene n raíces λ1, λ2, ..., λn, que pueden ser ordenadas de mayor a menor
λ1>λ2> ...>λn. Estas raíces o soluciones del sistema son las llamadas Valores Propios o Eigenvalores.
Valores Propios
Por cada Valor Propio encontrado se calcula un vector propio
asociado, esto a través de una ecuación muy similar a la de la
Ecuación Característica, de tal suerte que:
[ S – λI ] (a11, a21, …, ap1)’ = 0
Proporcionando un sistema de ecuaciones de la forma:
Entonces, como hay tantos Eigenvectores como Eigenvalores propios, se tiene que:
Si cada vector ei se normaliza, y se multiplica por la raíz cuadrada de su valor propio, se
tendría la expresión necesaria para calcular cada Componente Principal:
Y resultan tantos Componentes Principales como variables originales hay en el estudio
Cuya solución, para el primer eigenvalor λ1, es un vector propio (Eigenvector) de la forma:
Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central
CAS
Sesión 1
Reducción de dimensión
Análisis de Componentes
Principales
Principal Componentes Analysis (PCA)
En síntesis:
Si hay tantas variables nuevas (Componentes Principales Z) como variables
originales de estudio,
¿dónde está la reducción de dimensión?
X1
1
2
3
4
5
6
7
8
9
10
.
.
.
n
2
19
2
1
29
21
24
27
5
3
15
23
21
4
X2
X3
...
29
24
18
19
21
9
24
25
6
11
18
27
23
29
20
29
18
4
18
3
8
18
16
16
27
20
29
3
Xo
8
23
2
27
5
13
6
26
24
30
24
20
11
19
Xp
29
30
11
4
28
19
6
5
28
27
12
15
2
5
Z1
1 -0.08
2 0.64
3 -0.48
4 0.33
5 0.84
6 0.02
7 0.95
8 0.08
9 -0.81
10 0.61
.
0.49
.
0.73
. -0.68
n 0.85
Z2
0.77
-0.24
0.26
0.82
0.8
-0.31
0.76
0.76
0.39
0.7
0.24
-0.79
0.95
0.21
Z3
...
0.58
0.49
0.27
-0.98
0.28
0.81
0.2
-0.97
0.54
0.06
0.21
0.54
-0.16
0.25
Zo
0.44
0.2
-0.11
0.98
0.66
0.17
0.3
0.98
0.34
0.33
-0.68
0.35
0.41
0.86
Zp
0.24
0.65
0.43
0.45
-0.1
0.58
0.65
0.9
0.24
-0.8
0.07
0.97
0.03
-0.8
Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central
CAS
Sesión 1
Reducción de dimensión
Análisis de Componentes
Principales
Principal Componentes Analysis (PCA)
Detalles
Supuestos:
Propiedades:
Aplicaciones:
Descripción
Descripción
Descripción
Condiciones iniciales y
Dada la estructura de su
Por la naturaleza de su
requerimientos matemático -
construcción, los Componentes
realización, existen diversos
estadísticos mínimos para
Principales gozan de ciertas
contextos donde aplicar un
aplicar un PCA a sus conjuntos
propiedades matemáticas
Análisis de Componentes
o bases de datos.
demostrativas.
Principales
Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central
CAS
Sesión 1
Reducción de dimensión
Análisis de Componentes
Principales
Principal Componentes Analysis (PCA)
Detalles
Supuestos:
 Las variables iniciales deben ser continuas (aunque las variables ordinales funcionan bien).
 Debe haber una relación lineal entre todas las variables. La razón de esta suposición es que un PCA se basa en los
coeficientes de correlación de Pearson y, como tal, debe haber una relación lineal entre las variables (supuesto relajado).
 Debe tener un muestreo adecuado, lo que significa que para que el PCA produzca un resultado confiable, se requiere un
tamaño de muestra suficientemente grandes.
Descripción
Condiciones iniciales y
 Los datos deben ser adecuados para la reducción de dimensión, es decir, se necesita tener correlaciones adecuadas entre las
variables para que las mismas se reduzcan a un número menor de componentes.
requerimientos matemático estadísticos mínimos para
aplicar un PCA a sus conjuntos
o bases de datos.
 No debe haber valores atípicos significativos, pues ellos pueden tener una influencia desproporcionada en el cálculo de los
Componentes Principales.
Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central
CAS
Sesión 1
Reducción de dimensión
Principal Componentes Analysis (PCA)
Detalles
Propiedades:
Descripción
Dada la estructura de su
construcción, los Componentes
Principales gozan de ciertas
propiedades matemáticas
demostrativas.
Análisis de Componentes
Principales
Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central
CAS
Sesión 1
Reducción de dimensión
Principal Componentes Analysis (PCA)
Detalles
Propiedades:
Descripción
Dada la estructura de su
construcción, los Componentes
Principales gozan de ciertas
propiedades matemáticas
demostrativas.
Análisis de Componentes
Principales
Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central
CAS
Sesión 1
Reducción de dimensión
Análisis de Componentes
Principales
Principal Componentes Analysis (PCA)
Detalles
Supuestos:
Propiedades:
Aplicaciones:
Descripción
Descripción
Descripción
Condiciones iniciales y
Dada la estructura de su
Por la naturaleza de su
requerimientos matemático -
construcción, los Componentes
realización, existen diversos
estadísticos mínimos para
Principales gozan de ciertas
contextos donde aplicar un
aplicar un PCA a sus conjuntos
propiedades matemáticas
Análisis de Componentes
o bases de datos.
demostrativas.
Principales
CAS
Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central
Sesión 1
Reducción de dimensión
Análisis de Componentes
Principales
PRUEBA
COMPUTACIONAL
01
Un breve ejemplo de cómo implementar un Análisis de Componentes
Principales en Software de Lenguaje y Programación Estadística.
Análisis de Componentes Principales: Decathlon
library(FactoMineR)
library(factoextra)
library(ggplot2)
data(decathlon2)
head(decathlon2)
fix(decathlon2)
# Seleccionando un subconjunto de datos de esta base:
decathlon2.active<-decathlon2[1:23, 1:10]
fix(decathlon2.active)
res.pca<-PCA(decathlon2.active, graph = F)
# res.pca
eig.val<-get_eigenvalue(res.pca)
eig.val
# Gráficode Sedimentación o Dedrograma:
fviz_eig(res.pca, addlabels = T, ylim=c(0, 50))
# Representación en los dos primeros componentes:
fviz_pca(res.pca, col.var="cos2", gradient.cols=c("#00AFBB", "#E7B800", "#FC4E07"), repel=T)
CAS
Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central
Sesión 1
Reducción de dimensión
Análisis de Componentes
Principales
PRUEBA
COMPUTACIONAL
02
Un breve ejemplo de cómo implementar un Análisis de Componentes
Principales en Software de Lenguaje y Programación Estadística.
Análisis de Componentes Principales:
Rotando los Ejes de un ACP
# ====================================================
# Ejemplo 2: Rotando los Ejes de un ACP
# ::::::::::::::::::::::::::::::::::::::::::::::::::::
library(tidyverse)
data("iris")
X <- iris %>%
select(Sepal.Length,Petal.Length) %>%
as.matrix()
# :::::::::::::::::::::::::::::::::::::::::::::::::::::
# Calcule la matriz de covarianza y la correspondiente
# descomposición de los valores propios:
# :::::::::::::::::::::::::::::::::::::::::::::::::::::
S <- cov(X)
S
CAS
Maestría en Analítica de Datos – Facultad de Ingeniería - Universidad Central
Sesión 1
Reducción de dimensión
Análisis de Componentes
Principales
PRUEBA
COMPUTACIONAL
03
Un breve ejemplo de cómo implementar un Análisis de Componentes
Principales en Software de Lenguaje y Programación Estadística.
Análisis de Componentes Principales: USAir
Lemoria.
Home
THANKS
S E E
M A E S T R Í A
Y O U
E N
N E X T
A N A L Í T I C A
Facultad de Ingeniería.
César Augusto Serna M.
csernam@ucentral.edu.co
T I M E
D E
D AT O S
Products
Contacts
Descargar