Introducción a la regresión ordinal

Anuncio
Introducción a la regresión ordinal
Jose Barrera
jbarrera@mat.uab.cat
20 de mayo 2009
Jose Barrera (UAB)
Introducción a la regresión ordinal
20 de mayo 2009
1 / 11
Introducción a la regresión ordinal
1
El modelo de regresión ordinal
Introducción. Modelos de regresión para respuesta categórica
Formulación del modelo de regresión ordinal
Suposiciones sobre el modelo
Estimación y significación de los parámetros
Interpretación de los parámetros
Selección y validación del mejor modelo
El modelo de regresión ordinal en R
2
Ejemplo de aplicación
Jose Barrera (UAB)
Introducción a la regresión ordinal
20 de mayo 2009
2 / 11
Introducción a la regresión ordinal
1
El modelo de regresión ordinal
Introducción. Modelos de regresión para respuesta categórica
Formulación del modelo de regresión ordinal
Suposiciones sobre el modelo
Estimación y significación de los parámetros
Interpretación de los parámetros
Selección y validación del mejor modelo
El modelo de regresión ordinal en R
2
Ejemplo de aplicación
Jose Barrera (UAB)
Introducción a la regresión ordinal
20 de mayo 2009
2 / 11
Introducción. Modelos de regresión para respuesta categórica
Si queremos modelar una variable respuesta categórica, Y , de categorías
y1 , . . . , yg , con un conjunto de variables explicativas (factores o covariables)
X = (X1 , . . . , Xm ), mediante un modelo lineal general, podemos plantearnos las
opciones siguientes:
g
¿Y ordinal?
Regresión
2
No importa
Logística
>3
No
Multinomial
>3
Sí
Ordinal
Modelamos
f (P(Y = y2 |X)) = α + β 0 X
f (P(Y = yj |Xi )) = αi + β 0j Xi ,
j = 2, . . . , g; i = 1, . . . , n
f (γj (X)) = f (P(Y 6 yj |X)) = αj + β 0 X ,
j = 1, . . . , g − 1
donde f () es la llamada función de enlace (habitualmente Logit, Log-Log o Probit),
αj + β 0 X es el predictor lineal y αj y β = (β1 , . . . , βm )0 parámetros a estimar.
Así, el modelo de regresión ordinal es adecuado para modelar una variable
respuesta ordinal, Y , con categorías ordenadas y1 , . . . , yg , g > 3.
Jose Barrera (UAB)
Introducción a la regresión ordinal
20 de mayo 2009
3 / 11
Formulación del modelo de regresión ordinal
El modelo de regresión ordinal es
f (γj (X)) = αj + β 0 X ,
j = 1, . . . , g − 1
,
γj (X) = P(Y 6 yj |X)
Las funciones de enlace habituales son
“
P(Y )
1−P(Y )
”
Logit
:
f (Y ) = logit(P(Y )) = log
Log-Log
Probit
:
:
f (Y ) = log [− log(1 − P(Y ))]
f (Y ) = Φ−1 (P(Y )) , Φ(x) = P(Z ∼ N(0, 1) 6 x)
= log Odds(Y )
La no inclusión de diferentes umbrales αj implicaría
b
b
P(Y
6 yj |X) = P(Y
6 yk |X) ,
j 6= k .
El enlace Logit es adecuado cuando la respuesta está uniformemente
representada y el enlace Log-Log cuando predominan las categorías elevadas
(según [3], citado en [1]). En adelante consideraremos el enlace Logit.
El modelo proporciona las probabilidades
h
i−1
0
Acumuladas : P(Y 6 yj |X) = 1 + e−(αj +β X)
Absolutas
:
P(Y = yj |X) = P(Y 6 yj |X) − P(Y 6 yj−1 |X)
Parametrización: Algunos autores y/o paquetes estadísticos consideran el
predictor lineal αj − β 0 X y/o modelan P(Y > yj |X) en lugar de P(Y 6 yj |X).
Jose Barrera (UAB)
Introducción a la regresión ordinal
20 de mayo 2009
4 / 11
Suposiciones sobre el modelo
No se supone normalidad, homocedasticidad ni incorrelación de los residuos.
El modelo de regresión ordinal sí supone una condición sobre los datos a
modelar: odds proporcionales o líneas paralelas, ya que del modelo se deduce
d∆X =c (Y 6 yj ) = eβk c ,
OR
k
∀j = 1, . . . , g − 1
Ejemplo: 540 profesores y profesoras de enseñanza secundaria clasificados
según el grado de sensación de estrés laboral y el índice de diversidad
sociocultural del alumnado del correspondiente centro de trabajo. (Datos ficticios).
Grado de estrés
Índice de diversidad
Bajo
Medio
Alto
Bajo
Alto
84
122
58
129
36
111
100
Índice de diversidad
●
Bajo: OR=1.74
Alto: OR=1.76
c ≈ 1,74)
(OR
Grado de estrés
Índice de diversidad
Bajo o Medio
Alto
Bajo
Alto
142
251
36
111
Porcentaje acumulado
90
80
●
70
●
60
50
●
40
●
c ≈ 1,76)
(OR
30
Grado de estrés
Bajo
Índice de diversidad
Bajo
Alto
Jose Barrera (UAB)
Bajo
84
122
Medio o Alto
Medio
Alto
Grado de estrés
94
240
Introducción a la regresión ordinal
20 de mayo 2009
5 / 11
Estimación y significación de los parámetros
Podemos estimar los parámetros del modelo por MV maximizando
(numéricamente) la función de verosimilitud
L(α, β|Y , X) = . · · · . =
n g−1
Y
Yh
1
iδi1h
0
1+e−(α1 +β Xi )
i=1 j=2
donde
1
−(αj +β 0 Xi )
1+e
1
−
1+e
iδij
−(αj−1 +β 0 Xi )

1 si el i-ésimo individuo muestra Y = yj
0 en caso contrario
„ q «
asint.
−1
∼ N θk , Îkk
(I, matriz de información de Fisher) y podemos realizar la
δij =
θ̂k ,MV
prueba de Wald para resolver el contraste de hipótesis
H0 : βk = 0 contra H1 : βk 6= 0
según el estadístico
H
β̂k2 H0 2
β̂
q k ∼0 N (0, 1) o, equivalentemente, −1
∼ χ1 .
−1
Îkk
Îkk
Análogamente, el test de razón de verosimilitudes permite contrastar
H0 : βk1 = · · · = βks = 0 contra H1 : ∃r : βkr 6= 0.
Jose Barrera (UAB)
Introducción a la regresión ordinal
20 de mayo 2009
6 / 11
Interpretación de los parámetros
Consideraremos la parametrización
”
“
P(Y 6yj |X)
= αj + β 0 X ,
log 1−P(Y 6y
|X)
j = 1, . . . , g − 1
j
αj :
\
log
Odds(Y 6 yj |X = 0) = αj
⇐⇒
[
eαj = Odds(Y
6 yj |X = 0)
βk :
I
I
I
`
´
c X (Y 6 yj )
\
Si Xk es un factor, log
ORXk Y 6 yj = βk ⇐⇒ eβk = OR
k
`
´
c ∆X =c (Y 6 yj )
\
Si Xk es covariable, log OR∆Xk =c Y 6 yj = βk c ⇐⇒ eβk c = OR
k
Si existe interacción entre X1 y X2 (término β12 X1 X2 en el modelo),

F
F
F
F
e β1
eβ1 +β12
X2 = 0
X2 = 1
 β
e 1
c X (Y 6 yj ) =
Si X1 es un factor y X2 = x2 una covariable: OR
1
eβ1 +β12 x2
 β c
e 1
c
Si X1 es covariable y X2 es un factor: OR∆X1 =c (Y 6 yj ) =
e(β1 +β12 )c
 β c
1
e
,
c ∆X =c (Y 6 yj ) =
Si X1 y X2 = x2 son covariables: OR
1
e(β1 +β12 x2 )c
,
c X (Y 6 yj ) =
Si X1 y X2 son factores: OR
1
,
,
X2 = 0
X2 = 1
, X2 = 0
, X2 = 1
X2 = 0
X2 = 1
,
,
Xk será un factor de riesgo (protección) si βk > 0 (βk < 0), si y1 es peor que yg .
Jose Barrera (UAB)
Introducción a la regresión ordinal
20 de mayo 2009
7 / 11
Selección y validación del mejor modelo
Cumplimiento de la asunción del modelo: test de líneas paralelas.
Bondad de ajuste (R 2 ajustado).
Estabilidad de los parámetros del modelo.
Precisión en la clasificación. Podemos clasificar el individuo i de la muestra en
aquella categoría j para la cual la probabilidad
b
P(Y
= yj |X = Xi ) = γ
bj (X = Xi ) − γ
bj−1 (X = Xi )
es máxima y crear y analizar la matriz de confusión (tabla de contingencia de las
frecuencias observadas y esperadas).
Parsimonia mediante, por ejemplo, el AIC (Criterio de Información de Akaike).
Jose Barrera (UAB)
Introducción a la regresión ordinal
20 de mayo 2009
8 / 11
El modelo de regresión ordinal en R
Podemos ajustar un modelo de regresión ordinal en R con la función polr de la
librería MASS.
Esta función considera la parametrización
«
„
P(Y 6 yj |X)
= αj − β 0 X
log
1 − P(Y 6 yj |X)
Acepta cualquiera de los enlaces Logit, Log-Log o Probit.
Jose Barrera (UAB)
Introducción a la regresión ordinal
20 de mayo 2009
9 / 11
Ejemplo de aplicación
Estudio observacional transversal sobre estudiantes de un centro universitario de
ciencias de la salud, con predominio de minorías, graduados entre los años 1999
y 2001 ([1]).
Variable respuesta: nivel de satisfacción global que mostraron los estudiantes con
su experiencia en la facultad (“muy insatisfecho”, “insatisfecho”, “satisfecho”, “muy
satisfecho”).
Variables explicativas: dos variables relacionadas con aspectos demográficos
(sexo y etnia -Afroamericana o no-) y un cuestionario de 42 preguntas midiendo el
grado de satisfacción con aspectos relacionados con el entorno de aprendizaje
del estudiante.
Criterios para la selección de los modelos: validación de la asunción del modelo,
estabilidad, bondad de ajuste y parsimonia.
Mejor modelo obtenido:
I
I
I
I
Enlace Logit.
Superó el test de líneas paralelas.
Resultaron significativas (α = 0,05) tres variables explicativas (todas con asociación
directa a los niveles altos de la variable respuesta): competencia del profesorado,
relación alumnado-profesorado y promoción de hábitos saludables/prevención de
enfermedades, además de los puntos de corte correspondientes a las categorías 2
(“satisfecho”) y 3 (“muy satisfecho”) de la variable respuesta.
La matriz de confusión clasificó correctamente el 75 % de los individuos.
Jose Barrera (UAB)
Introducción a la regresión ordinal
20 de mayo 2009
10 / 11
Ejemplo de aplicación
Coeficientes significativos en el modelo
Variable
Umbral (“Insatisfecho”)
Umbral (“Satisfecho”)
X1 = Promoción salud/Prevención enfermedades
X2 = Competencia profesorado
X3 = Relaciones alumnado−profesorado
Coeficiente
5,782
10,020
0,674
0,700
1,291
p-valor
0,001
0,000
0,033
0,026
0,000
Ejemplos de estimación de probabilidades (incorrecta/correcta)
αj + β 0 X
X = 0
Muy insatisfecho
0,50
Insatisfecho
0,50
Satisfecho
0,00
Muy satisfecho
0,00
X = X1
0,66
0,34
0,00
0,00
X = X2
0,67
0,33
0,00
0,00
X = X3
0,78
0,21
0,00
0,00
X = X1 + X2 + X3
0,93
0,06
0,00
0,00
Muy insatisfecho
0,50
Insatisfecho
0,50
Satisfecho
0,00
Muy satisfecho
0,00
X = X1
0,34
0,66
0,01
0,00
X = X2
0,33
0,66
0,01
0,00
X = X3
0,22
0,77
0,01
0,00
X = X1 + X2 + X3
0,07
0,89
0,04
0,00
αj − β 0 X
X = 0
Jose Barrera (UAB)
Introducción a la regresión ordinal
20 de mayo 2009
11 / 11
Chen, C. y Hughes, J. (2004). Using Ordinal Regression Model to Analyze Student
Satisfaction Questionnaires. IR Applications. Vol. 1. (Acceso al documento en
http://www.airweb.org/page.asp?page=554).
Kleinbaum, D.G. y Klein, M. (2002). Logistic Regression. A Self-Learning Text.
Springer.
SPSS, Inc. (2002). Ordinal Regression Analysis, SPSS Advanced Models 10.0.
Chicago, IL.
Jose Barrera (UAB)
Introducción a la regresión ordinal
20 de mayo 2009
11 / 11
Descargar