Regresión Polinomial y Regresión Logística

Anuncio
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Regresión Polinomial y Regresión Logística
M.L. Gámiz Pérez
Departamento Estadística e Inv. Operativa
Universidad de Granada
30 de octubre de 2013
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
1
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Contenido
Regresión Polinomial
Introducción y ejemplos
Aproximaciones alternativas
Regresión Logística
Introducción
Estimación de los parámetros del modelo
Evaluación del modelo
Contraste de regresión
Estudio de la bondad del ajuste
Tests de significación de los coeficientes
Capacidad predictiva del modelo
Regresión Logística Múltiple
Análisis de residuos
Regresión Logística Multinomial
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
2
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Introducción
I
Polinomio de segundo orden:
Y = β0 + β1 X + β2 X 2 + (1)
Y = β0 + β1 X1 + β2 X2 + β11 X12 + β22 X22 + β12 X1 X2 + (2)
I
Se usan cuando la respuesta es curvilínea
I
Y = f (X ) para f compleja → desarrollo en serie de Taylor
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
3
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Introducción
I
Polinomio de segundo orden:
Y = β0 + β1 X + β2 X 2 + (1)
Y = β0 + β1 X1 + β2 X2 + β11 X12 + β22 X22 + β12 X1 X2 + (2)
I
Se usan cuando la respuesta es curvilínea
I
Y = f (X ) para f compleja → desarrollo en serie de Taylor
I
Modelo de orden k en 1 variable
Y = β0 + β1 X + . . . + βk X k + I
Si Xj = X j , para j = 1, . . . , k: Modelo de regresión lineal
múltiple
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
4
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Introducción
I
Polinomio de segundo orden:
Y = β0 + β1 X + β2 X 2 + (1)
Y = β0 + β1 X1 + β2 X2 + β11 X12 + β22 X22 + β12 X1 X2 + (2)
I
Se usan cuando la respuesta es curvilínea
I
Y = f (X ) para f compleja → desarrollo en serie de Taylor
I
Modelo de orden k en 1 variable
Y = β0 + β1 X + . . . + βk X k + I
Si Xj = X j , para j = 1, . . . , k: Modelo de regresión lineal
múltiple
I
Orden del modelo: Principio de PARSIMONIA
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
5
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Principios básicos
I
Interpretación:
I
I
I
β0 : Promedio de Y cuando X = 0
β1 : Parámetro de efecto lineal
β2 : Parámetro de efecto cuadrático, etc...
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
6
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Principios básicos
I
Interpretación:
I
I
I
I
β0 : Promedio de Y cuando X = 0
β1 : Parámetro de efecto lineal
β2 : Parámetro de efecto cuadrático, etc...
Estrategia para la construcción del modelo: Métodos de
selección de variables (adelante/atrás). Se debe restringir a
polinomios de orden 1 o 2.
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
7
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Principios básicos
I
Interpretación:
I
I
I
I
I
β0 : Promedio de Y cuando X = 0
β1 : Parámetro de efecto lineal
β2 : Parámetro de efecto cuadrático, etc...
Estrategia para la construcción del modelo: Métodos de
selección de variables (adelante/atrás). Se debe restringir a
polinomios de orden 1 o 2.
Extrapolación !!
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
8
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Principios básicos
I
Interpretación:
I
I
I
I
I
I
β0 : Promedio de Y cuando X = 0
β1 : Parámetro de efecto lineal
β2 : Parámetro de efecto cuadrático, etc...
Estrategia para la construcción del modelo: Métodos de
selección de variables (adelante/atrás). Se debe restringir a
polinomios de orden 1 o 2.
Extrapolación !!
Mal acondicionamiento: A medida que aumenta el orden del
polinomio la matriz X0 X se vuelve mal acondicionada.
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
9
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Principios básicos
I
Interpretación:
I
I
I
I
I
I
I
β0 : Promedio de Y cuando X = 0
β1 : Parámetro de efecto lineal
β2 : Parámetro de efecto cuadrático, etc...
Estrategia para la construcción del modelo: Métodos de
selección de variables (adelante/atrás). Se debe restringir a
polinomios de orden 1 o 2.
Extrapolación !!
Mal acondicionamiento: A medida que aumenta el orden del
polinomio la matriz X0 X se vuelve mal acondicionada.
Multicolinealidad !!
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
10
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Principios básicos
I
Interpretación:
I
I
I
I
I
I
I
I
β0 : Promedio de Y cuando X = 0
β1 : Parámetro de efecto lineal
β2 : Parámetro de efecto cuadrático, etc...
Estrategia para la construcción del modelo: Métodos de
selección de variables (adelante/atrás). Se debe restringir a
polinomios de orden 1 o 2.
Extrapolación !!
Mal acondicionamiento: A medida que aumenta el orden del
polinomio la matriz X0 X se vuelve mal acondicionada.
Multicolinealidad !!
Jerarquía:
Y = β0 + β1 X + β2 X 2 + β3 X 3 + SI
Y = β0 + β1 X + β3 X 3 + NO
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
11
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Extensiones
Análisis de regresión usando funciones base...
I Regresion trigonométrica
Y =
d
X
j=0
βj X j +
λ
X
[γk cos(kX ) + δk sin(kX )] + k=1
con d = 2 y λ a determinar.
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
12
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Extensiones
Análisis de regresión usando funciones base...
I Regresion trigonométrica
Y =
d
X
j=0
I
βj X j +
λ
X
[γk cos(kX ) + δk sin(kX )] + k=1
con d = 2 y λ a determinar.
Regresión por splines
Modelo lineal con un nodo (x0 )
Y = β0 + β1a X + β1b (X − x0 )+ + con
(X − x0 )+ =
MÁSTER EN ESTADÍSTICA PÚBLICA
1 si X > x0
0 en otro caso
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
13
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria
I
Se pretende caracterizar la relación entre una variable respuesta
Y y un conjunto de variables independientes X1 , X2 , . . . , Xp
Y = f (X1 , X2 , . . . , Xp )
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
14
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria
I
Se pretende caracterizar la relación entre una variable respuesta
Y y un conjunto de variables independientes X1 , X2 , . . . , Xp
Y = f (X1 , X2 , . . . , Xp )
I
Hipótesis del modelo de regresión lineal: Normalidad y varianza
constante
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
15
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria
I
Se pretende caracterizar la relación entre una variable respuesta
Y y un conjunto de variables independientes X1 , X2 , . . . , Xp
Y = f (X1 , X2 , . . . , Xp )
I
I
Hipótesis del modelo de regresión lineal: Normalidad y varianza
constante
Estrategias:
I
I
mínimos cuadrados ponderados
transformación de los datos
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
16
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria
I
Se pretende caracterizar la relación entre una variable respuesta
Y y un conjunto de variables independientes X1 , X2 , . . . , Xp
Y = f (X1 , X2 , . . . , Xp )
I
I
Hipótesis del modelo de regresión lineal: Normalidad y varianza
constante
Estrategias:
I
I
I
mínimos cuadrados ponderados
transformación de los datos
Modelo Lineal Generalizado: La variable respuesta
pertenece a la familia exponencial : Normal, Poisson,
Binomial, Exponencial, Gamma, etc.
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
17
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria simple
I
La variable respuesta representa la ocurrencia o no de un
suceso, por ejemplo:
I
I
I
I
I
que
que
que
que
den
que
un estudiante apruebe o no un examen;
un transplante de corazón sea aceptado o no;
una empresa llegue a estar en problemas financieros o no;
un paciente de un hospital sobreviva o no antes de que le
de alta;
un cliente devuelva un crédito bancario o no.
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
18
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria simple
I
La variable respuesta representa la ocurrencia o no de un
suceso, por ejemplo:
I
I
I
I
I
I
que
que
que
que
den
que
un estudiante apruebe o no un examen;
un transplante de corazón sea aceptado o no;
una empresa llegue a estar en problemas financieros o no;
un paciente de un hospital sobreviva o no antes de que le
de alta;
un cliente devuelva un crédito bancario o no.
Se considera la siguiente codificación de Y :
1, el suceso tiene lugar
Y =
0, el suceso no tiene lugar
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
19
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El modelo de regresión con respuesta binaria simple
I
La variable respuesta representa la ocurrencia o no de un
suceso, por ejemplo:
I
I
I
I
I
que
que
que
que
den
que
un estudiante apruebe o no un examen;
un transplante de corazón sea aceptado o no;
una empresa llegue a estar en problemas financieros o no;
un paciente de un hospital sobreviva o no antes de que le
de alta;
un cliente devuelva un crédito bancario o no.
I
Se considera la siguiente codificación de Y :
1, el suceso tiene lugar
Y =
0, el suceso no tiene lugar
I
Se considera un solo regresor o variable explicativa X
Hipótesis: P(Y = 1|X = x) es monótona (creciente o
decreciente) en x.
I
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
20
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El modelo lineal no es aplicable
I
Supongamos el siguiente modelo
Y = β0 + β1 X + ,
donde representa el error, con → N(0, σ):
E (Y |X = x) = β0 + β1 x
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
21
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El modelo lineal no es aplicable
I
Supongamos el siguiente modelo
Y = β0 + β1 X + ,
donde representa el error, con → N(0, σ):
E (Y |X = x) = β0 + β1 x
I
Si Y es binaria, entonces para un individuo i: Yi = 1 ó Yi = 0
y...
1 − β0 − β1 Xi , si Yi = 1
i =
,
−β0 − β1 Xi ,
si Yi = 0
I
Además...
Var (i ) = Var (Yi ) = E (Yi − E (Yi ))2 = (1 − E (Yi ))E (Yi ).
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
22
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Ejemplo
Notación: E (Yi |Xi ) = π(Xi ) = πi
I
Queremos evaluar la probabilidad de desarrollar una
enfermedad cardiaca en un determinado intervalo de tiempo
πi , para un sujeto con un determinado nivel de colesterol Xi .
Es lógico esperar
I
I
I
πi → 1 a medida que Xi % ∞, y
πi → 0 a medida que Xi & 0.
Con datos binarios, E (Y |X = x) ∈ [0, 1].
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
23
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Ejemplo
Notación: E (Yi |Xi ) = π(Xi ) = πi
I
Queremos evaluar la probabilidad de desarrollar una
enfermedad cardiaca en un determinado intervalo de tiempo
πi , para un sujeto con un determinado nivel de colesterol Xi .
Es lógico esperar
I
I
I
I
πi → 1 a medida que Xi % ∞, y
πi → 0 a medida que Xi & 0.
Con datos binarios, E (Y |X = x) ∈ [0, 1].
El cambio en E (Y |x) por unidad de cambio en x se va
haciendo progresivamente menor a medida que la media
condicional se aproxima a 0 y 1.
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
24
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Ejemplo
Notación: E (Yi |Xi ) = π(Xi ) = πi
I
Queremos evaluar la probabilidad de desarrollar una
enfermedad cardiaca en un determinado intervalo de tiempo
πi , para un sujeto con un determinado nivel de colesterol Xi .
Es lógico esperar
I
I
I
πi → 1 a medida que Xi % ∞, y
πi → 0 a medida que Xi & 0.
Con datos binarios, E (Y |X = x) ∈ [0, 1].
I
El cambio en E (Y |x) por unidad de cambio en x se va
haciendo progresivamente menor a medida que la media
condicional se aproxima a 0 y 1.
I
Se podría esperar una curva como en la figura siguiente...
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
25
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Función Logística
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
26
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Función de distribución logística
π(x) =
I
exp(β0 + β1 x)
1 + exp(β0 + β1 x)
Propiedades:
I
I
I
Flexibilidad;
Interpretación práctica;
π(x)
Transformación logit: g (x) = ln 1−π(x)
= β0 + β1 x
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
27
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Función de distribución logística
π(x) =
I
Propiedades:
I
I
I
I
exp(β0 + β1 x)
1 + exp(β0 + β1 x)
Flexibilidad;
Interpretación práctica;
π(x)
Transformación logit: g (x) = ln 1−π(x)
= β0 + β1 x
Otras funciones: Modelo Probit
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
28
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística binario
I
Y{X =x} → Binomial (1, π(x))
π(x) =
MÁSTER EN ESTADÍSTICA PÚBLICA
exp(β0 + β1 x)
1 + exp(β0 + β1 x)
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
29
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística binario
I
Y{X =x} → Binomial (1, π(x))
π(x) =
I
I
exp(β0 + β1 x)
1 + exp(β0 + β1 x)
Es un método predictivo y explicativo:
Finalidades:
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
30
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística binario
I
Y{X =x} → Binomial (1, π(x))
π(x) =
I
I
exp(β0 + β1 x)
1 + exp(β0 + β1 x)
Es un método predictivo y explicativo:
Finalidades:
1. Cuantificar la importancia de la relación existente entre la
variable X y la variable Y .
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
31
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística binario
I
Y{X =x} → Binomial (1, π(x))
π(x) =
I
I
exp(β0 + β1 x)
1 + exp(β0 + β1 x)
Es un método predictivo y explicativo:
Finalidades:
1. Cuantificar la importancia de la relación existente entre la
variable X y la variable Y .
2. Clasificar individuos dentro de las categorías
(presente/ausente) de la variable Y en función de la
probabilidad que tengan de pertenecer a cada una de ellas en
presencia de determinada información (X ).
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
32
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Interpretación de los coeficientes: odds (ventaja)
I
Definición:
O(x) =
MÁSTER EN ESTADÍSTICA PÚBLICA
π(x)
1 − π(x)
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
33
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Interpretación de los coeficientes: odds (ventaja)
I
Definición:
O(x) =
π(x)
1 − π(x)
I
Interpretación: “Cuánto más probable es que ocurra un suceso
frente a que no ocurra”
I
Ejemplo: Si π(x) = 0,75 se tiene un odds de 3 : 1.
I
Modelo log-lineal...
g (x) = ln
MÁSTER EN ESTADÍSTICA PÚBLICA
π(x)
= β0 + β1 x
1 − π(x)
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
34
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Interpretación de los coeficientes: odds ratio (OR)
I
I
I
Sean X1 y X2 dos perfiles de la variable X y sean πj = π(Xj ),
j = 1, 2;
El logaritmo de la razón de los odds
" π #
1
π1 (1 − π2 )
1−π1
= ln
= β1 (X1 − X2 ).
ln π2
π2 (1 − π1 )
1−π2
Es decir...
ln(OR) = β1 (X1 − X2 ).
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
35
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Interpretación de los coeficientes: odds ratio (OR)
I
I
I
Sean X1 y X2 dos perfiles de la variable X y sean πj = π(Xj ),
j = 1, 2;
El logaritmo de la razón de los odds
" π #
1
π1 (1 − π2 )
1−π1
= ln
= β1 (X1 − X2 ).
ln π2
π2 (1 − π1 )
1−π2
Es decir...
ln(OR) = β1 (X1 − X2 ).
I
I
Caso particular: X1 = X2 + 1 se tiene que ln(OR) = β1 y
equivalentemente OR = e β1 .
Interpretación del signo:
OR > 1
OR < 1
I OR = 1
MÁSTER EN ESTADÍSTICA PÚBLICA
I
I
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
36
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El método de máxima-verosimilitud
I
I
Datos: {(Xi , Yi ); i = 1, . . . , n}
Contribución del dato (Xi , Yi ): Li = π(Xi )Yi [1 − π(Xi )]1−Yi
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
37
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El método de máxima-verosimilitud
I
I
I
I
Datos: {(Xi , Yi ); i = 1, . . . , n}
Yi
1−Yi
Contribución del dato (Xi , Yi ): Li = π(X
Qni ) [1 − π(Xi )]
Función de verosimilitud: L(β0 , β1 ) = i=1 Li
Log-verosimilitud:
P
`(β0 , β1 ) = ni=1 {Yi ln(π(Xi )) + (1 − Yi ) ln(1 − π(Xi ))}
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
38
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El método de máxima-verosimilitud
I
I
I
I
I
Datos: {(Xi , Yi ); i = 1, . . . , n}
Yi
1−Yi
Contribución del dato (Xi , Yi ): Li = π(X
Qni ) [1 − π(Xi )]
Función de verosimilitud: L(β0 , β1 ) = i=1 Li
Log-verosimilitud:
P
`(β0 , β1 ) = ni=1 {Yi ln(π(Xi )) + (1 − Yi ) ln(1 − π(Xi ))}
Diferenciando con respecto a β0 y β1
Pn
[Yi − π(Xi )] = 0
Pi=1
n
i=1 Xi [Yi − π(Xi )] = 0
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
39
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El método de máxima-verosimilitud
I
I
I
I
I
I
I
I
Datos: {(Xi , Yi ); i = 1, . . . , n}
Yi
1−Yi
Contribución del dato (Xi , Yi ): Li = π(X
Qni ) [1 − π(Xi )]
Función de verosimilitud: L(β0 , β1 ) = i=1 Li
Log-verosimilitud:
P
`(β0 , β1 ) = ni=1 {Yi ln(π(Xi )) + (1 − Yi ) ln(1 − π(Xi ))}
Diferenciando con respecto a β0 y β1
Pn
[Yi − π(Xi )] = 0
Pi=1
n
i=1 Xi [Yi − π(Xi )] = 0
Si no hay una separación completa existe solución.
Métodos numéricos: Newton-Raphson (veremos en el caso
múltiple).
Solución inicial: Análisis Discriminante (Normalidad de las
variables explicativas)
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
40
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Ejemplo: Hosmer y Lemeshow (1989), pg. 2
Se pretende estudiar la influencia de la edad (X = Edad ) en la
presencia/ausencia de evidencia de enfermedad coronaria
(Y = CHD). Se seleccionaron 100 sujetos para participar en el
estudio. La tabla siguiente representa la información referente a los
primeros individuos
ID
1
2
3
4
5
6
7
8
MÁSTER EN ESTADÍSTICA PÚBLICA
GrupoEdad
1
1
1
1
1
1
1
1
Edad
20
23
24
25
25
26
26
28
CHD
0
0
0
0
1
0
0
0
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
41
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Diagrama de dispersión
Y =
MÁSTER EN ESTADÍSTICA PÚBLICA
1, enfermedad está presente
0, otro caso
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
42
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
E (Y |x) por grupos de edad
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
43
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Resultado del ajuste
I
I
P(CHD=1|Edad)
= β0 + β1 Edad
Modelo: ln P(CHD=0|Edad)
Coeficientes estimados (SPSS):
Coeficiente estimado
Edad
βb1 = 0,111
Constante
βb0 = −5,309
Error estándar
0,024
1,134
Log -verosimilitud = −53,6765
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
44
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Resultado del ajuste
I
I
P(CHD=1|Edad)
= β0 + β1 Edad
Modelo: ln P(CHD=0|Edad)
Coeficientes estimados (SPSS):
Coeficiente estimado
Edad
βb1 = 0,111
Constante
βb0 = −5,309
Error estándar
0,024
1,134
Log -verosimilitud = −53,6765
I
Probabilidad estimada de presentar la enfermedad en función
de la Edad:
π
b(Edad ) =
I
exp(−5,309 + 0,111Edad )
1 + exp(−5,309 + 0,111Edad )
Interpretación...
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
45
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Contraste de regresión
I
I
I
Después de ajustar el modelo evaluamos la significación de
la(s) variable(s) involucrada(s).
No estudiamos aún la bondad de ajuste (términos absolutos):
¿representan los valores ajustados a los valores observados?
Comparamos un modelo sin la covariable (modelo nulo) frente
a modelo con la covariable (términos relativos)
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
46
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Contraste de regresión
I
I
I
I
I
Después de ajustar el modelo evaluamos la significación de
la(s) variable(s) involucrada(s).
No estudiamos aún la bondad de ajuste (términos absolutos):
¿representan los valores ajustados a los valores observados?
Comparamos un modelo sin la covariable (modelo nulo) frente
a modelo con la covariable (términos relativos)
Regresion lineal:
Coeficientes
Estadístico
Modelo nulo
β0 = Y ; β1 = 0
Var (Y )
P
bi )2
Modelo lineal
βb0 ; βb1 6= 0
(Yi − Y
Medida de diferencia
V .E .
Regresión logística: la medida se basa en el log de la función
de verosimilitud
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
47
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El test de razón de verosimilitudes
I
Contraste de regresión: ¿Es mejor el modelo nulo?
H0 : β 1 = 0
H1 : β1 6= 0
I
Se basa en el estadístico (Hosmer y Lemeshow, 1989)
función de verosimilitud del modelo sin X
G = −2 ln
función de verosimilitud del modelo con X
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
48
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El test de razón de verosimilitudes
I
Contraste de regresión: ¿Es mejor el modelo nulo?
H0 : β 1 = 0
H1 : β1 6= 0
I
Se basa en el estadístico (Hosmer y Lemeshow, 1989)
función de verosimilitud del modelo sin X
G = −2 ln
función de verosimilitud del modelo con X
I
En el modelo univariante comparamos con el modelo nulo
#
"
n n1 n n0
1
n
biYi (1
i=1 π
G = −2 ln Qn
I
I
0
n
−π
bi )(1−Yi )
Bajo H0 , G → χ2 (1).
Ejemplo...
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
49
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El coeficiente R 2 en regresión logística
Alternativas al coeficiente de determinación usado en regresión
lineal (Maddala-Magee)
R 2 = 1 − {L(0)/L(βb0 , βb1 )}2/n
I
I
I
I
No es una verdadera medida de la bondad de ajuste: sólo
compara 2 modelos
L(0) = p1n1 (1 − p1 )n−n1 , F. de
P verosimilitud del modelo nulo
(sólo β0 ); con p1 = n1 /n = Yi /n.
L(βb0 , βb1 ), F. de verosimilitud evaluada en el estimador.
L ≤ 1, entonces
R 2 ≤ 1 − (p1p1 (1 − p1 )1−p1 )2
I
I
R2 ≥ 0
2
Coeficiente corregido:R = R 2 /max(R 2 ) (Nagelkerke)
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
50
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
El test de Hosmer-Lemeshow
Pasos:
1. Calcular π
b1 = π
b(X1 ), . . . , π
bn = π
b(Xn ), a partir del modelo
ajustado (suponemos que no hay valores repetidos de la
variable X ).
2. Ordenar los n valores de menor a mayor.
3. Agrupar los valores calculados siguiendo uno de los dos
criterios siguientes:
(a) Dividir la secuencia ordenada en cuartiles, deciles u otra
clasificación similar.
(b) Formar el primer grupo con todos los individuos para los que
π
bi es menor que 0.1; en el segundo grupo considerar los
individuos cuyo π
bi esté entre 0.1 y 0.2, etc.
Sean n1 , n2 , . . . , n10 las frecuencias respectivas.
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
51
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
4. Sumar los valores de π
bi dentro de cada grupo. Estos
sumatorios serán los valores esperados, que denotamos
E1 , E2 , . . . , E10 .
5. Contar en cada grupo el número de sujetos para los cuales
Y = 1, estos serán los valores observados, que denotamos
O1 , O2 , . . . , O10 .
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
52
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
4. Sumar los valores de π
bi dentro de cada grupo. Estos
sumatorios serán los valores esperados, que denotamos
E1 , E2 , . . . , E10 .
5. Contar en cada grupo el número de sujetos para los cuales
Y = 1, estos serán los valores observados, que denotamos
O1 , O2 , . . . , O10 .
Estadístico de Hosmer-Lemeshow
χ2 =
10
10
X
(Oi − Ei )2 X (Oi∗ − Ei∗ )2
+
,
Ei
Ei∗
i=1
i=1
donde Ei∗ = ni − Ei y Oi∗ = ni − Oi .
Este estadístico sigue una distribución χ2 (8).
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
53
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Tests individuales
Nos planteamos...
H0 : βj = 0
H1 : βj 6= 0,
j = 0, 1
Test de Wald
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
54
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Tests individuales
Nos planteamos...
H0 : βj = 0
H1 : βj 6= 0,
j = 0, 1
Test de Wald
I Estadístico de Wald:
W =
βbj
,
seβb
j
con seβb
j
q
= Var (βbj ).
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
55
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Tests individuales
Nos planteamos...
H0 : βj = 0
H1 : βj 6= 0,
j = 0, 1
Test de Wald
I Estadístico de Wald:
W =
βbj
,
seβb
j
I
q
con seβb = Var (βbj ).
j
2
`(β0 ,β1 )
Sea H = ∂ ∂β
u ∂βj
0≤u,j≤1
I
La matriz de covarianzas Σ(βb0 , βb1 ) = −(H(βb0 , βb1 ))−1
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
56
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Tests individuales
Nos planteamos...
H0 : βj = 0
H1 : βj 6= 0,
j = 0, 1
Test de Wald
I Estadístico de Wald:
W =
βbj
,
seβb
j
I
q
con seβb = Var (βbj ).
j
2
`(β0 ,β1 )
Sea H = ∂ ∂β
u ∂βj
0≤u,j≤1
I
I
La matriz de covarianzas Σ(βb0 , βb1 ) = −(H(βb0 , βb1 ))−1
W tiene distribución Normal estándar.
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
57
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Prueba Score
I
Contraste:
H0 : β j = 0
H1 : βj 6= 0
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
58
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Prueba Score
I
Contraste:
H0 : β j = 0
H1 : βj 6= 0
I
Requiere menos esfuerzo computacional que los anteriores
I
Estimador
Pn
ST = q
i=1 Xi (Yi
Y (1 − Y )
−Y)
Pn
I
ST tiene distribución Normal estándar
I
Ejemplo...
MÁSTER EN ESTADÍSTICA PÚBLICA
.
2
i=1 (Xi − X )
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
59
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Estudio de la capacidad predictiva del modelo
Objetivo: Establecer si el modelo logístico estimado clasifica
correctamente a los sujetos de acuerdo con los valores de la variable
respuesta.
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
60
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Estudio de la capacidad predictiva del modelo
Objetivo: Establecer si el modelo logístico estimado clasifica
correctamente a los sujetos de acuerdo con los valores de la variable
respuesta.
(
bi = 1
π
bi > 0,5 ⇒ Y
Clasificacion =
bi = 0
π
bi ≤ 0,5 ⇒ Y
Y
b
Y
1
0
MÁSTER EN ESTADÍSTICA PÚBLICA
1
VP
FP
0
FN
VN
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
61
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Estudio de la capacidad predictiva del modelo
Objetivo: Establecer si el modelo logístico estimado clasifica
correctamente a los sujetos de acuerdo con los valores de la variable
respuesta.
(
bi = 1
π
bi > 0,5 ⇒ Y
Clasificacion =
bi = 0
π
bi ≤ 0,5 ⇒ Y
Y
b
Y
1
0
I
I
I
1
VP
FP
0
FN
VN
CP = (VP + VN)/n
Sensibilidad = VP/(VP + FN)
Especifidad = VN/(VN + FP)
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
62
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística múltiple
P(Y = 1) =
MÁSTER EN ESTADÍSTICA PÚBLICA
exp(β0 + β1 X1 + · · · + βp Xp )
1 + exp(β0 + β1 X1 + · · · + βp Xp )
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
63
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística múltiple
P(Y = 1) =
I
exp(β0 + β1 X1 + · · · + βp Xp )
1 + exp(β0 + β1 X1 + · · · + βp Xp )
F. de verosimilitud:
n
X
L(β) =
{Yi ln πi + (1 − Yi ) ln(1 − πi )} ,
i=1
con πi = π(Xi1 , Xi2 , . . . , Xip ).
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
64
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Modelo de regresión logística múltiple
P(Y = 1) =
I
exp(β0 + β1 X1 + · · · + βp Xp )
1 + exp(β0 + β1 X1 + · · · + βp Xp )
F. de verosimilitud:
n
X
L(β) =
{Yi ln πi + (1 − Yi ) ln(1 − πi )} ,
i=1
I
con πi = π(Xi1 , Xi2 , . . . , Xip ).
Ecuaciones de verosimilitud, para j = 1, . . . , p
n
∂`(β) X
=
(Yi − πi ) = 0
∂β0
i=1
∂`(β)
=
∂βj
MÁSTER EN ESTADÍSTICA PÚBLICA
n
X
(Yi − πi )Xij = 0;
i=1
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
65
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
I
Forma matricial: X0 (Y − π) = 0, donde



1
X11
· · · X1p
 1

X21
· · · X2p 


;Y = 
.
.
.
X=

..
.. 
 ..
···



..
1 Xn1 · · ·
. Xnp
MÁSTER EN ESTADÍSTICA PÚBLICA
Y1
Y2
..
.






;π = 


Yn
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
π1
π2
..
.





πn
66
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
I
I
Forma matricial: X0 (Y − π) = 0, donde



1
X11
· · · X1p
 1

X21
· · · X2p 


;Y = 
.
.
.
X=

..
.. 
 ..
···



..
1 Xn1 · · ·
. Xnp
Y1
Y2
..
.






;π = 


Yn
π1
π2
..
.





πn
Buscamos solución del siguiente sistema de ecuaciones:
b = X0 (Y − π
b) = 0
U(β)
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
67
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
I
I
Forma matricial: X0 (Y − π) = 0, donde



1
X11
· · · X1p
 1

X21
· · · X2p 


;Y = 
.
.
.
X=

..
.. 
 ..
···



..
1 Xn1 · · ·
. Xnp
Y1
Y2
..
.






;π = 


Yn

π1
π2
..
.




πn
Buscamos solución del siguiente sistema de ecuaciones:
b = X0 (Y − π
b) = 0
U(β)
I
Desarrollo de Taylor → βb = β(0) − H−1 (β(0) )U(β(0) )
donde
I
I
U(·) es la funcion
score, el vector de derivadas parciales de `;
∂ 2 `(·)
H(·) = ∂βj ∂βu
, es la matriz hessiana
1≤u,j≤p
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
68
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Método de Newton-Raphson
El estimador se obtiene de modo iterativo, en el paso k del
algoritmo
−1 0
b (k−1)
βb(k) = βb(k−1) + X0 W(k−1) X
X Y−π
I
b (k−1) (1 − π
b (k−1) )
W(k−1) = diag π
I
b (k−1) son probabilidades estimadas en el paso anterior
π
βb(k−1) es el vector de coeficientes obtenido en el paso anterior.
I
MÁSTER EN ESTADÍSTICA PÚBLICA
n×n
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
69
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Método de Newton-Raphson
El estimador se obtiene de modo iterativo, en el paso k del
algoritmo
−1 0
b (k−1)
βb(k) = βb(k−1) + X0 W(k−1) X
X Y−π
I
b (k−1) (1 − π
b (k−1) )
W(k−1) = diag π
I
b (k−1) son probabilidades estimadas en el paso anterior
π
βb(k−1) es el vector de coeficientes obtenido en el paso anterior.
I
I
I
n×n
Se necesita un valor inicial para empezar el proceso iterativo.
Matriz de información de Fisher: bI(k−1) = X0 W(k−1) X
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
70
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Interpretación de los coeficientes
I
I
β0 = logit de presentar el suceso de interés cuando todas las
covariables toman valor 0.
Sean X1 y X2 dos perfiles distintos:
" p
#
X
O(X1 )
= exp
βi (Xi1 − Xi2 )
O(X2 )
i=1
Cuánto más “peligro” tiene un sujeto del perfil 1 de presentar
la característica de interés frente a un individuo del perfil 2.
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
71
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Interpretación de los coeficientes
I
I
β0 = logit de presentar el suceso de interés cuando todas las
covariables toman valor 0.
Sean X1 y X2 dos perfiles distintos:
" p
#
X
O(X1 )
= exp
βi (Xi1 − Xi2 )
O(X2 )
i=1
I
Cuánto más “peligro” tiene un sujeto del perfil 1 de presentar
la característica de interés frente a un individuo del perfil 2.
Caso particular: Xj1 = Xj2 + 1 y el resto igual,
O(X1 )/O(X2 ) = exp(βj )
I
I
βj = cambio en logit cuando Xj aumenta en una unidad y el
resto de variables se mantienen iguales.
A veces el cambio en 1 unidad no tiene interés práctico (edad)
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
72
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Contrastes de significación del modelo
(A) Desviación del modelo: “Contraste de regresión”
H0 : β1 = β2 = · · · = βp = 0
H1 : ∃βj 6= 0,
Estadístico de contraste: G → χ2 (p).
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
73
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Contrastes de significación del modelo
(A) Desviación del modelo: “Contraste de regresión”
H0 : β1 = β2 = · · · = βp = 0
H1 : ∃βj 6= 0,
Estadístico de contraste: G → χ2 (p).
(B) Contrastes individuales:
H0 : βj = 0
H1 : βj 6= 0,
j = 1, . . . , p.
Estadístico de contraste (Wald): Wj =
βbj
se(βbj )
→ N(0, 1)
Intervalo de confianza al nivel 100 × (1 − α) %:
βbj ± Z1−α/2 se(βbj )
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
74
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
(C) Pruebas de hipótesis de subconjuntos de parámetros
I
I
I
Sea β = (β(1) , β(2) ), con dim(β(1) ) = r < p.
Contraste:
H0 : β(1) = 0
H1 : β(1) 6= 0,
Estadístico de contraste:
G = −2[`(modelo bajoH0 ) − `(modelo bajoH1 )] → χ2 (p − r )
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
75
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Selección de variables
(Silva y Barroso, 2004)
Adelante :
1. Se inicia con un modelo vacio (solo β0 )
2. Se ajusta un modelo y se calcula el p-valor de incluir cada
variable por separado
3. Se selecciona el modelo con la variable más significativa
4. Se ajusta un modelo con la(s) variable(s) seleccionada(s) y se
calcula el p-valor de añadir cada variable no seleccionada por
separado
5. Se selecciona el modelo con la más significativa
6. Se repite 4-5 hasta que no queden variables significativas para
incluir.
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
76
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Atrás :
1. Se inicia con un modelo con TODAS las variables candidatas
2. Se eliminan, una a una, cada variable y se calcula la pérdida de
ajuste al eliminar
3. Se selecciona para eliminar la menos significativa
4. Se repite 2-3 hasta que todas las variables incluidas sean
significativas y no pueda eliminarse ninguna sin que se pierda
ajuste.
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
77
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Atrás :
1. Se inicia con un modelo con TODAS las variables candidatas
2. Se eliminan, una a una, cada variable y se calcula la pérdida de
ajuste al eliminar
3. Se selecciona para eliminar la menos significativa
4. Se repite 2-3 hasta que todas las variables incluidas sean
significativas y no pueda eliminarse ninguna sin que se pierda
ajuste.
Stepwise :
a) Se combinan los métodos adelante y atrás.
b) Puede empezarse por el modelo vacío o por el completo, pero
en cada paso se exploran las variables incluidas, por si deben
salir y las no seleccionadas, por si deben entrar
c) No todos los métodos llegan a la misma solución
necesariamente
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
78
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Consideraciones importantes en regresión logística múltiple
I
Multicolinealidad
I
I
I
Consiste en: dos o más variables linealmente correlacionadas;
Efecto: Incremento exagerado en los errores estándar y en los
coeficientes estimados. Modelo poco creible
Posibles estrategias:
I
I
I
Examinar la matriz de correlaciones;
Formular modelos con las variables correlacionadas y estudiar
el coeficiente R 2
Si R 2 > 0,9 !!
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
79
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
I
Confusión e interacción
I
I
I
Variable confusora: Covariable que está asociada a la variable
respuesta y a un factor de riesgo
Interacción: La asociación entre el factor de riesgo y la
respuesta depende de la covariable (efecto modificador ).
Ejemplo:
I
I
I
I
Y = (1, si enfermedad coronaria; 0, en otro caso); X = edad;
F =sexo (0=m, 1=m);
logit lineal en la covariable X para los individuos con factor
F = 1 con pendiente distinta de los individuos con factor
F =0
Modelo: logit = β0 + β1 X + β2 F + δX ∗ F
Importante: Determinar la evidencia o no de interacción en el
modelo. H0 : δ = 0
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
80
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
I
Confusión e interacción
I
I
I
Variable confusora: Covariable que está asociada a la variable
respuesta y a un factor de riesgo
Interacción: La asociación entre el factor de riesgo y la
respuesta depende de la covariable (efecto modificador ).
Ejemplo:
I
I
I
I
I
Y = (1, si enfermedad coronaria; 0, en otro caso); X = edad;
F =sexo (0=m, 1=m);
logit lineal en la covariable X para los individuos con factor
F = 1 con pendiente distinta de los individuos con factor
F =0
Modelo: logit = β0 + β1 X + β2 F + δX ∗ F
Importante: Determinar la evidencia o no de interacción en el
modelo. H0 : δ = 0
Variables categóricas
I
I
Se introducen como variables dummy
Se aceptan o se rechazan en bloque.
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
81
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Análisis de residuos
Residuo. Medida que expresa la diferencia entre las
respuestas observadas y predichas por el modelo. Alertan de...
1. que no se cumpla el supuesto de linealidad entre el
modelo logit de la probabilidad de Y = 1 y la(s)
variable(s) independiente(s);
2. la presencia de algunas observaciones extremas que
perturbe la calidad del ajuste; o
3. que una función distinta de la logística describiese más
adecuadamente el conjunto de observaciones.
Tipos:
I Residuos de Pearson
I Residuos deviance
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
82
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Datos agrupados
Consideramos perfiles de covariables que definen grupos de
individuos
I
mj = número total de individuos con mismo perfil de
covariables.
I
Hay J combinaciones distintas: X1 , . . . , XJ
I
Ỹj = número de individuos con perfil j que presentan el suceso
Y =1
I
π
bj = π
b(Xj ) = valor de probabilidad estimado según el modelo
logístico para el perfil j-ésimo.
I
Las aproximaciones normales asintóticas se sustentan en la
aproximación normal de la variable binomial Ỹ , por esto mj
debe ser grande.
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
83
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Residuos de Pearson
I
Residuos: Se definen...
rj = Ỹj − mj π
bj
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
84
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Residuos de Pearson
I
Residuos: Se definen...
rj = Ỹj − mj π
bj
I
Residuos estandarizados o residuos de Pearson:
rej = p
I
I
I
Ỹj − mj π
bj
mj π
bj (1 − π
bj )
Si |rej | > 2 dato a examinar!
Si J no es grande (mj suficientemente grande para cada j), rej
son NORMALES.
Si mj = 1, rj solo toma 2 valores y no puede esperarse
Normalidad.
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
85
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Residuos de Pearson
I
Residuos: Se definen...
rj = Ỹj − mj π
bj
I
Residuos estandarizados o residuos de Pearson:
rej = p
I
I
I
I
Ỹj − mj π
bj
mj π
bj (1 − π
bj )
Si |rej | > 2 dato a examinar!
Si J no es grande (mj suficientemente grande para cada j), rej
son NORMALES.
Si mj = 1, rj solo toma 2 valores y no puede esperarse
Normalidad.
PJ
Estadístico resumen: X 2 = j=1 rej2 → χ2 (J − (p + 1))
(J ≈ n problema!).
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
86
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Residuos deviance
Definición:
v "
u
u
dj = sign(Ỹj −mj π
bj )t2 Ỹj ln
I
Ỹj
mj π
bj
!
+ (mj − Ỹj ) ln
mj − Ỹj
mj (1 − π
bj )
Mide la discrepancia entre la j-ésima componente del
logaritmo de la función de verosimilitud del modelo ajustado y
la correspondiente componente del logaritmo de la función de
verosimilitud que resultaría si cada punto fuese ajustado
exactamente.
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
87
!#
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
I
Datos no agrupados (mj = 1)
I
I
di = −{2[− ln(1 − π
bi )]}1/2 , si Yi = 0; y
1/2
di = {2[− ln(b
πi )]}
si Yi = 1.
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
88
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
I
Datos no agrupados (mj = 1)
I
I
I
di = −{2[− ln(1 − π
bi )]}1/2 , si Yi = 0; y
1/2
di = {2[− ln(b
πi )]}
si Yi = 1.
Estadístico resumen:
D=
J
X
dj2
j=1
es χ2 si J << n.
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
89
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Influencia o leverage
¿Qué efecto tiene eliminar todos aquellos sujetos que tienen un
determinado perfil de covariables en los coeficientes estimados y las
medidas de resumen global, X 2 y D?
Se define...
∆βbj = βb − βb(−j)
Pregibon (1981) aproxima...
∆βbj =
rej2 hj
1 − hj
donde hj son los leverages,
H = V1/2 X(X0 VX)−1 X0 V1/2
XJ×p es la matriz de diseño,
V = diag (vj )J×J = diag (mj π
b(Xj )[1 − π
b(Xj )])
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
90
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Otros diagnósticos
Objetivo: determinar perfiles de covariables para los que el modelo
proporciona un ajuste pobre...
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
91
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Otros diagnósticos
Objetivo: determinar perfiles de covariables para los que el modelo
proporciona un ajuste pobre...
Procedimiento: Examinar cambios debidos a la eliminación de los
mj sujetos en...
I
Chi-cuadrado de Pearson: ∆Xj2 = rej2
I
Deviance: ∆Dj =
dj2
1−hj
Considerar las representaciones gráficas
I
Detectar perfiles con gran influencia en el modelo: (b
πj , ∆βbj )
I
Detectar perfiles que no son bien ajustados por el modelo:
(b
πj , ∆Xj2 ) y (b
πj , ∆Dj )
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
92
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Otros diagnósticos
Hosmer y Lemeshow (1989) aconsejan estos gráficos por encima de
(b
πj , rj ) o (b
πj , dj ) porque:
1. Cuando J ≈ n la mayoría de los residuos positivos
corresponden a perfiles en los que Ỹj = mj , por ejemplo
mj = 1, y los residuos negativos se corresponden con aquellos
con Ỹj = 0. Por lo que el signo no es informativo.
2. Grandes residuos se corresponden con puntos que no están
bien reflejados en el modelo. Si consideramos los residuos al
cuadrado se enfatiza aún más la falta de ajuste.
3. La forma de los gráficos ayuda a determinar qué perfiles se
corresponden con Ỹj = 0 y cuáles tienen Ỹj = mj
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
93
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Regresión Logística Multinomial
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
94
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Regresión Logística Multinomial
I
La variable respueste tiene r + 1 ≥ 2 categorías
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
95
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Regresión Logística Multinomial
I
I
La variable respueste tiene r + 1 ≥ 2 categorías
Se elige una como referencia y se enfrentan a ella las r
restantes a través de
Prob(Y = k)
; k = 1, . . . , r
Prob(Y = 0)
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
96
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Regresión Logística Multinomial
I
I
I
La variable respueste tiene r + 1 ≥ 2 categorías
Se elige una como referencia y se enfrentan a ella las r
restantes a través de
Prob(Y = k)
; k = 1, . . . , r
Prob(Y = 0)
Modelo
ln
Prob(Y = k)
= β0k + β1k X 1 + · · · + βpk Xp
Prob(Y = 0)
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
97
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Regresión Logística Multinomial
I
I
I
La variable respueste tiene r + 1 ≥ 2 categorías
Se elige una como referencia y se enfrentan a ella las r
restantes a través de
Prob(Y = k)
; k = 1, . . . , r
Prob(Y = 0)
Modelo
ln
I
I
I
Prob(Y = k)
= β0k + β1k X 1 + · · · + βpk Xp
Prob(Y = 0)
Tenemos un total de r ∗ (p + 1) parémetros a estimar
Se estima mediante el método de máxima-verosimilitud
Métodos númericos implementados en software estadístico
(SPSS)
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
98
METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS
MODELOS LINEALES Y SERIES TEMPORALES
Bibliografía I
Hosmer,D.W. y Lemeshow, S. (1989). Applied Logistic
Regression, Wiley
Kleinbaum, D.G. (1994). Logistic Regression. A Self-Learning
Text. Springer.
Montgomery, D.C., Peck, E.A. y Vining, G.G. (2002).
Introducción al análisis de regresión lineal, CECSA
Pérez López, C. (2001). Técnicas Estadísticas con SPSS
(Versión 10), Pearson Alhambra
Ryan, T. (1997). Modern Regression Methods, Wiley
Silva, L.C. y Barroso, I. (2004). Regresión Logística, La Muralla
MÁSTER EN ESTADÍSTICA PÚBLICA
Experto Universitario: Estadística Aplicada y Técnicas de Encuestación
99
Descargar