Técnicas Estadísticas de Análisis de Datos Análisis de una variable

Anuncio
Técnicas Estadísticas de Análisis de Datos
• Descripción de datos. Estadísticos de una variable
• Distribuciones de probabilidad e intervalos de confianza
• Contrastes de hipótesis. Tipos
• Relaciones entre atributos
• Nominales- Numéricos: Tests de comparación de medias (muestras
dependientes e independientes) y análisis de varianza.
• Numéricos - Numéricos: Análisis de Regresión
• Nominales-Nominales: Tablas de Contingencia. Tests de
independencia y comparación de proporciones.
• Aplicación de técnicas estadísticas a la clasificación
• Clasificación mediante regresión numérica
• Clasificador bayesiano
Técnicas Clásicas de Análisis de Datos
1
Análisis de una variable (muestra de datos)
• Estadísticos: resumen (describen) toda la información contenida
en una muestra de datos :
• Variables continuas
•
medidas centrales (media, moda, mediana)
•
medidas de dispersión (rango, varianza, desviación
estándar, percentiles)
•
medidas de forma (histograma)
• Variables nominales
•
frecuencias relativas (probabilidades), moda
•
media y varianza de probabilidad estimada
• Muestra: yi; i =1…n; toma valores en un rango continuo/discreto
Técnicas Clásicas de Análisis de Datos
2
1
Estadísticos centrales
• Media (esperanza) muestral: promedio de todos los valores
1 n
∑ yi
n i =1
• Moda: valor que aparece más veces
• Mediana: valor que deja el mismo número de casos a ambos
lados
media ( y) = y =
(
)
mediana ( y) = yi | N º casos y j ≤ yi = N º casos ( y k ≥ yi )
• equivale a ordenar el vector de datos y tomar el valor
central
• menos sensible frente a valores extremos poco probables
3
Técnicas Clásicas de Análisis de Datos
Estadísticos de dispersión
• Recorrido (intervalo, o rango):
max(yi)-min(yi)
• Varianza: promedio de desviaciones con respecto a valor medio
1 n
1 n 2
2
2
Var ( y ) =
∑ ( yi − y) =
∑ y i − ny 

n − 1 i =1
n − 1  i =1

• Desviación estándar (típica): raíz cuadrada de la varianza
desv ( y ) = σ y = Var ( y )
valor
media, sigma
14
12
10
8
6
4
2
0
-2 0
-4
Datos
valor medio
valor medio+sigma
valor medio - sigma
10
20
30
40
muestra
Técnicas Clásicas de Análisis de Datos
4
2
Histograma
Estimación de la distribución de densidad de probabilidad:
frecuencia absoluta o relativa de valores de yi por unidad de intervalo
histograma normal
Nº de casos en intervalo
frecuencia absoluta
140
120
100
80
60
40
20
0
-3
-2,4
-1,8
-1,2
-0,6
0
0,6
1,2
1,8
2,4
3
y
intervalos de clase
La suma total de frecuencias absolutas es el número de datos
La suma de frecuencias relativas es 1
5
Técnicas Clásicas de Análisis de Datos
Ejemplo: histograma de variable uniforme
his togram a
140
120
100
80
60
40
20
0
his togram a
0
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
1
acum ulado
1.2
1
0.8
0.6
acum ulado
0.4
0.2
0
0
0.2
0.4
Técnicas Clásicas de Análisis de Datos
0.6
0.8
1
6
3
Cuantiles del histograma
• Cuantil: valores que dividen el recorrido de datos en k partes de la
misma frecuencia (percentiles: 100 partes, cuartiles: 4 partes, etc.)
• Ejemplo: cuartiles
porcentaje cuartiles
0,25
1,4
0,5
2,725
0,75
4
1
7,7
alumnos
Calificación
2,8
0,6
5
3,1
3,9
4,9
1
0
6,55
...
frecuencia
80
60
40
20
0
0
1
2
3
4
5
6
7
8
9
10
calificación
Recorrido inter-cuartílico:
[1.4, 4]: contiene 50% datos
Cuartil 1
Cuartil 3
Cuartil 2
Cuartil 4
Técnicas Clásicas de Análisis de Datos
7
Estadísticos de variable nominal
• yi nominal: toma valores de un conjunto discreto (categorías): {vi1, …, viki}
• Distribución de frecuencias de cada valor
p 1 =100(n1 / n)%
p2 = 100(n2 / n)%
M
pki = 100(nki / n)%
ki
n = ∑nj
j =1
• Moda: valor que aparece más veces
max (n j )
j
Técnicas Clásicas de Análisis de Datos
8
4
Media y varianza de frecuencias estimadas
• Cálculo de cada frecuencia
• para una categoría dada: m casos de n
p=m/n
• puede verse como asignar: vi=1 cada ejemplo en la categoría
vi=0 en el resto
1 n
p = ∑ vi
n i =1
• Varianza de p:
Var (p) =
1 n
2
∑ ( vi − p) = p(1 − p)
n i =1
σ p = p(1 − p)
• caso máxima varianza: p=0.5
9
Técnicas Clásicas de Análisis de Datos
Ejemplo variable nominal y numérica
Técnicas Clásicas de Análisis de Datos
60
50
porcentaje
Sexo
M
M
H
M
H
H
M
H
M
H
H
H
M
H
M
M
M
M
M
H
H
M
H
H
M
H
M
M
M
M
40
30
20
10
0
H
M
sexo
120
100
porcentaje
Edad
23
25
18
37
45
62
43
40
60
54
28
18
54
29
42
26
32
41
37
36
53
21
24
21
45
64
22
61
37
66
80
frecuencia
60
acumulada
40
20
0
18
25
35
45
55
65
edad
10
5
Distribución Normal
• Curva de gran interés por explicar datos en muchas situaciones
• Aplicada por primera vez como distribución por A. Quetelet (1830)
f (z) =
1
 1 
exp − z 2 
2π
 2 
• distribución simétrica: coincide media y mediana en 0
• se dispone del valor de la distribución de probabilidad: área bajo la curva
de fZ(z) para cualquier valor:
Tipificar o estandarizar variables: Se
z
FZ (z)
-3
0.001349967
mide el desplazamiento respecto a la
-2.5
0.00620968
-2
0.022750062
media en unidades de desviación típica:
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
3
0.066807229
0.15865526
0.308537533
0.5
0.691462467
0.84134474
0.933192771
0.977249938
0.99379032
0.998650033
y −y
zi = i
σi
F(z0)
f(z)
2
z
0
-5
-4
-3
-2
-1
0
1
3
z0
11
Técnicas Clásicas de Análisis de Datos
Distribución Normal e Intervalos de Confianza
f(z)
f(z)
F(z0)
-3
-2
-1
0
1
3
Una cola (unilateral)
F(z0)
-3
-2
-1
0
1
z
3
Simétrico dos colas (bilateral)
• Ej.: se conocen parámetros de una población con distribución normal:
media: µ= 115; desviación típica:σ= 20
• ¿casos inferiores a 70? z=(70-115)/20, F(z)=0,012
• ¿casos superiores a 150? z=(150-115)/20, 1-F(z)=0,04
• ¿en intervalo 90-130? F((130-115)/20)-F((90-115)/20)=0,667
• ¿qué intervalos simétrico tienen el 80%, 95% de los casos
(intervalos de confianza)? z=F-1(α/2); y=µ±zσ
•
80%: z0.1=1,28; 115± z0.1*20=[89.3, 140.6]
•
95%: z0.025=1,96; 115± z0.025*20=[75.8, 154.2]
Técnicas Clásicas de Análisis de Datos
12
6
RELACIONES DE VARIABLES. TEST DE HIPOTESIS
ANÁLISIS DE VARIAS VARIABLES
• Objetivo: analizar la interrelación (dependencia) entre los valores de distintas
variables, haciendo uso de los datos disponibles
•
Numéricas (retardo, carga, distancia,…)
•
Nominales (tipo de avión, condición visibilidad, …)
• Herramienta de análisis: tests de hipótesis
•
Numéricas-numéricas: análisis de regresión y covarianza
•
Nominales-nominales: tablas de contingencia
•
Nominales-numéricas: comparación de medias, análisis de varianza
Técnicas Clásicas de Análisis de Datos
13
ANÁLISIS ESTADÍSTICO DE DATOS
ANÁLISIS DE VARIAS VARIABLES - NUMÉRICA-NUMÉRICA
• Permite identificar relaciones entre variables numéricas y construir modelos de
regresión
• Se consideran relaciones de una variable de salida (dependiente) con múltiples
variables de entrada (independientes)
• Estimación de una función (Regresión Lineal) que mejor “explique” los datos
r
r
r
{( X1, y1), (X 2 , y 2 ),..., (X n , y n )}
r
X : vectores con M dimensiones
g(.) : R M 
→ R
r
r
X 
→ ŷ = g(X)
Técnicas Clásicas de Análisis de Datos
14
7
Mínimos Cuadrados
• Estima vector de coeficientes que minimiza error
I
r
r
r
ŷi = g i (X) = a 0 + ∑ a p x p =(A t ) * X
p =1
r
( A ) = [a 0
r
a1 L a I ]t ; X = [1 x1 L x I ]t
• Objetivo: dadas N muestras, determinar coeficientes que
minimicen el error de predicción global
2
n
r
ε = ∑ [g ( X j ) − y j ]
j=1
• El método de mínimos cuadrados selecciona, como estimación de
la recta de regresión poblacional, aquella para la cual esta suma
de cuadrados es menor.
• Problema clásico de minimización de función cuadrática: solución
única
Técnicas Clásicas de Análisis de Datos
15
Mínimos Cuadrados
• Solución genérica matricial
1
1

r
 y1 
 ŷ1   g (X1)  1 x1 L x I 
r
  
 1 x 2 L x 2  r
r  
I A = H*A
1
y =  M ; ĝ =  M  =  M  = 

rN  M M
M
M 
y N 
 ŷ N  g (X
) 
 
  
 1 x N L x N 

I 
1
• Solución MC:
r
r
A = [ H t H ]−1 H t y
[(1+F)x1] = [(1+F)xN] [Nx(1+F)] [(1+F)xN] [Nx1]
Técnicas Clásicas de Análisis de Datos
16
8
Ejemplo: regresión lineal de 1 variable
Año
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
Renta
Consumo consumo E
1959,75
1751,87
1683,473374
2239,09
1986,35
1942,43325
2623,84
2327,9
2299,11261
3176,06
2600,1
2811,043671
3921,6
3550,7
3502,190468
4624,7
4101,7
4153,993607
5566,02
5012,6
5026,63666
6977,84
6360,2
6335,452914
8542,51
7990,13
7785,967518
9949,9
9053,5
9090,676976
11447,5
10695,4
10479,01488
13123,04
12093,8
12032,31062
15069,5
12906,27
13836,76054
16801,6
15720,1
15442,48976
18523,5
17309,7
17038,76316
Estimación Lineal
a1
a0
0.927041871
-133.296932
ConsumoE = a 0 + a1 * Re nta
17
Técnicas Clásicas de Análisis de Datos
Ejemplo: regresión lineal de 1 variable
dependencia consumo
consumos
20000
15000
Consumo
10000
consumo E
5000
0
0
5000
10000
15000
20000
renta
Técnicas Clásicas de Análisis de Datos
18
9
Ejemplo: regresión lineal de 2 variables
x1
Superficie
310
333
356
379
402
425
448
471
494
517
540
x2
Antigüedad
20
12
33
43
53
23
99
34
23
55
22
y
Valor
106,287 Euros
107,784 Euros
113,024 Euros
112,275 Euros
104,042 Euros
126,497 Euros
94,311 Euros
106,961 Euros
122,006 Euros
126,497 Euros
111,527 Euros
Estimación Lineal
a2
a1
a0
-220.444829 58.2271936 95538.7217
Valor
predicho
109,180 Euros
112,283 Euros
108,993 Euros
108,128 Euros
107,262 Euros
115,215 Euros
99,800 Euros
115,469 Euros
119,233 Euros
113,518 Euros
122,132 Euros
Valor = a 0 + a1* Superficie +
a 2 * Antigüedad
19
Técnicas Clásicas de Análisis de Datos
Ejemplo: regresión lineal de 2 variables
valores predichos
140000
150000
100000
100000
60000
superficie (m 2)
Técnicas Clásicas de Análisis de Datos
494
448
402
90
70
50
30
10
356
540
0
310
antigüedad (a)
310
10 20 30 40 50 60 70 80 90 100 110
402
0
356
20000
494
50000
40000
540
80000
448
valor (euros)
120000
20
10
Evaluación del modelo de regresión
Análisis de validez del modelo asumido:
• Medidas de “parecido” entre variable de salida estimada y real,
influencia de variables de entrada
– Factor de Correlación
– Error de predicción
• Análisis de “calidad” del modelo
– Error en coeficientes
– Hipótesis de significatividad de parámetros: t-Student
A1
AF
,...,
?
σ A1
σAF
α/2
N(0,1)
-4
-3
-2
-1
0
1
2
3
21
Técnicas Clásicas de Análisis de Datos
Factor de correlación
• Factor de correlación entre datos y predicciones:
Corr ( ŷ , y ) =
1
S ŷ S y
n
∑ ( ŷ
j=1
j
− ŷ )( y j − y ) =
Cov ( ŷ , y )
Var ( ŷ ) Var ( y )
• El factor de correlación varía entre -1 y 1.
• En general, se puede hacer factores de correlación entre cualquier par
de variables numéricas: indica el grado de relación lineal existente.
• -1: existe asociación lineal negativa perfecta.
• 1 positiva perfecta.
• 0 no hay asociación lineal.
Técnicas Clásicas de Análisis de Datos
22
11
Matrices de covarianza y correlación
Muestra de vectores aleatorios:
•
r
r
r
{X1 , X 2 ,..., X n }
Matriz de covarianzas:
r 1 n r
µˆ = ∑ Xi
n i =1
cov(x1, x 2 ) L cov(x1, x 2 )
 var(x1 )
cov(x , x )

n r
r
var(x1)
1
r
r
1
2
t
r = ∑ (X − µˆ )(X − µˆ ) = 

Ĉ X
i
i
M
O
M
n i =1


 cov(x , x )
L
var(x I ) 

1 I
•
La matriz de correlaciones es similar, normalizada
23
Técnicas Clásicas de Análisis de Datos
ANÁLISIS ESTADÍSTICO DE DATOS
ANÁLISIS DE VARIAS VARIABLES - NUMÉRICA-NOMINAL
• Mide la relación entre variables numéricas y nominales, o nominales y
nominales (proporciones)
• Analiza las diferencias de medias condicionadas a variable nominal:
impacto de la variable nominal sobre la continua
Variación E
• Dos tipos de análisis:
•
Con dos medias o proporciones:
significatividad de la diferencia tstudent
•
Más de dos valores distintos:
Análisis de Varianza
Técnicas Clásicas de Análisis de Datos
Variación NE
y
Y1
Y2
Y3
Y
24
12
1. Comparación de dos medias
• Se plantea como un test de hipótesis, dividiendo los datos en dos grupos,
cada uno con su media y varianza.
• Hipótesis sobre diferencia de medias: D = y1 − y2
• H0: la diferencia de medias en la población es nula D=0.
• Hipótesis alternativa A: las medias son distintas: D!=0.
• Hipótesis alternativa B: la media de 1 es mayor que 2:
y1 > y2
• Hipótesis alternativa C: la media de 1 es menor que 2:
y1 < y2
• Situaciones posibles:
• Muestras independientes: conjuntos distintos.
• Muestras dependientes: mismo conjunto, con dos variables a
comparar en cada ejemplo.
25
Técnicas Clásicas de Análisis de Datos
Contrastes de dos medias
• Hipótesis alternativa A
α/2=0.025
α/2=0.025
-3
3
z=−1.96
z=+1.96
• Hipótesis alternativa B:
α=0.05
0 .4
-3
3
0 .3 5
z=−1.65
0 .3
0 .2 5
• Cuando las muestras son pequeñas no es
válida la hipótesis de normalidad de los
estadísticos de medias
y ± t α / 2 ,GL σ
Técnicas Clásicas de Análisis de Datos
0 .2
0 .1 5
0 .1
0 .0 5
0
-5
-4
-3
-2
-1
0
1
2
3
4
5
26
13
2. Análisis de varianza (ANOVA)
Niveles
1
...
i
...
I
Variación Explicada
Observaciones
Y11,Y12,...Y1j,...Y1n1
...
Yi1,Yi2,...Yij,...Yini
...
YI1,YI2,...YIj,...YInI
Variación No
Explicada
y
Y1
I
• Número total de elementos:
1 I
Yi = ∑ Yij
• Media por nivel:
n i i =1
1 I ni
• Media total:
Y = ∑ ∑ Yij
n i =i j=1
M
ni
i =i j=1
ij
M
Y3
Y
i =1
variación explicada:
variabilidad entre grupos
variación no explicada
(residual): variabilidad
dentro de los grupos
• Relación entre “cuadrados”:
∑∑ (Y
Y2
n = ∑ ni
ni
M
−Y ) 2 = ∑∑ (Yij −Yi ) 2 + ∑ n i ( Yi − Y ) 2
i =i j=1
i =1
27
Técnicas Clásicas de Análisis de Datos
ANÁLISIS ESTADÍSTICO DE DATOS
ANÁLISIS DE VARIAS VARIABLES - NOMINAL-NOMINAL
• Analiza la interrelación entre los valores de variables nominales según distribución
de casos
• Herramienta para dos variables: tabla de contingencia
•
distribución de casos (frecuencias) para las distintas combinaciones de
valores de las dos variables
variable 1
valor 1
valor 2
...
valor p1
totales 2
totales 1
variable 2
valor 1
valor 2 ... valor p2
n12 ... n1p2
t1
n11
n21
...
np11
t'1
n22
...
np12
t'2
...
...
...
...
n2p2
...
np1p2
t'p2
Probabilidades marginales:
Técnicas Clásicas dePjAnálisis
de Datos
=t’j/t
t2
...
tp1
t
Probabilidades
marginales:
Pi=ti/t
Casos “esperados”
Eij=t(ti/t)(t’j/t)= tit’j/t
28
14
Relación entre variables nominales-nominales
• Objetivo: analizar la interrelación (dependencia) entre los valores
de variables nominales
• Herramienta para dos variables: tabla de contingencia
• distribución de casos (frecuencias) para las distintas
combinaciones de valores de las dos variables
variable 1
valor 1
valor 2
...
valor p1
totales 2
totales 1
variable 2
valor 1
valor 2 ... valor p2
n12 ...
n1p2
t1
n11
n21
...
np11
t'1
n22
...
np12
t'2
...
...
...
...
n2p2
...
np1p2
t'p2
t2
...
tp1
t
Probabilidades marginales:
Pj=t’j/t
Técnicas Clásicas de Análisis de Datos
Probabilidades
marginales:
Pi=ti/t
Estimación del nº
esperado de
observaciones
Eij=t(ti/t)(t’j/t)= tit’j/t
29
Contraste Chi-2 de variables nominales
• Es aplicable en análisis bi-variable (normalmente clase vs atributo)
• Determina si es rechazable la hipótesis de que dos variables son
independientes
• Bajo hipótesis H0 se determinan los casos en el supuesto de
variables independientes. Los valores esperados se determinan con
probabilidades marginales de las categorías: Eij=tPi Pj (valores
esperados).
• Nuestro contraste de hipótesis nula de no asociación estará basado
en las magnitudes de las diferencias entre los valores observados y
los esperados bajo la hipótesis nula.
• El estadístico Chi-cuadrado mide la diferencia entre los valores
observados y los valores esperados.
p1 p 2
χ 2 = ∑∑ (Oij − Eij ) 2 / Eij
i =1 j =1
Técnicas Clásicas de Análisis de Datos
30
15
Ejemplo
Técnicas Clásicas de Análisis de Datos
31
EJEMPLOS VALIDACIÓN HIPÓTESIS
ANÁLISIS DE VARIAS VARIABLES - NOMINAL-NUMÉRICA
– Hay relación entre tiempo en retardo y: franja horaria (mañana-tarde-noche), tipo de
día (diario-finsemana), compañía …
• Mayor grado de relación?
Técnicas Clásicas de Análisis de Datos
32
16
EJEMPLOS VALIDACIÓN HIPÓTESIS
ANÁLISIS DE VARIAS VARIABLES - NOMINAL-NUMÉRICA
Hipótesis (análogo a comparación de prestaciones!)
•
Hipótesis nula H0: la diferencia de medias según tipo día es nula D=0
•
Hipótesis alternativa: las medias son distintas: D!=0
fdp(T_finsemana-T_diario)
α/2=0.025
α/2=0.025
-3
3
0 1.5
+1.96σ
−1.96σ
• Mayor grado de relación? Más evidencia estadística para rechazar la hipótesis de
independencia
33
Técnicas Clásicas de Análisis de Datos
EJEMPLOS VALIDACIÓN HIPÓTESIS
ANÁLISIS DE VARIAS VARIABLES - NUMÉRICA-NUMÉRICA
14
140
12
120
10
100
8
80
retardo
intervenciones
– Qué variables están “más linealmente” relacionadas …
6
60
40
4
20
2
0
0
0
10
20
30
operaciones
40
50
Técnicas Clásicas de Análisis de Datos
0
10
20
30
40
50
-20
operaciones
34
17
EJEMPLOS VALIDACIÓN HIPÓTESIS
ANÁLISIS DE VARIAS VARIABLES – NOMINAL-NOMINAL
– Dependencia entre grado de retardo y tipo de avión, visibilidad,…
35
Técnicas Clásicas de Análisis de Datos
EJEMPLOS VALIDACIÓN HIPÓTESIS
ANÁLISIS DE VARIAS VARIABLES – NOMINAL-NOMINAL
– Hipótesis nula H0: las variables retardo y categoría son independientes:
Eij=t(ti/t)(t’j/t)
p1 p 2
χ 2 = ∑ ∑ ( E ij − Oij ) 2 / E ij
i =1j=1
α
χ2
Técnicas Clásicas de Análisis de Datos
36
18
Descargar