Algunas técnicas multivariantes útiles para la presentación de los

Anuncio
ESTADISTICA ESPAÑOLA
Vol. 33, Núm. 127, 1991, págs. 3^5 a 324
Algunas técnicas multivariantes útiles para
la presentación de los resultados ele una
encuesta
por
EDUARDO TEIJEIRO ALFONSIN
Jefatura de Area de Métodos de Investigación
Instituto Nacional de Estadística
RESUMEN
EI método más utilizado para presentar los resultados de una
investigación estadística es, sin duda, la tabulación. En este artículo, se cornienza enumerando sus principales limitaciones y,
en particular, se muestra un ejemplo real del fenómeno conocido
como "Paradoja de Simpson". A^ continuación, se prop^onen dos
técnicas multivariantes (el Análisis Factorial y la Regresión
Logística) como cornplementos útiles a la tabulación, en función
de dichas lirnitaciones. EI enfoque del artículo es eminentemente
práctico, por !o que en la presentación de ambas técnicas predominan los ejemplos sobre los desarrollos teóricos.
f'alab^as clave.^ Tabulación. Paradoja de Simpson. Análisis Factorial. Regresión Logística.
Clasificación A MS.^ 6 2 H 2 5, 6 2 J 9 9, 6 2 P 9 9
1.
INTRODUCCION
En ei contexto de este artículo, se supondrá que del largo proceso asociado a toda encuesta resta tan scílo la última etapa (y una de las más
importantes, por cierto}: la presentación de los resultados, que permitirá, a
i^1 1(>ftiC li
♦ I til' ♦ \tlt ♦
su vez, la extracción de las conclusiones finales de la investigación en
c u rso.
Llegado este punto, la sofución más universalmente aplicada consiste en
generar una serie de tablas estadísticas, cuya estructura específica dependerá del tipo de variables (cuantitativas, ordinaies, categóricas, etc.} estudiadas, y que, sin más preámbulo, suelen servir de base inmediata para
extraer conclusiones. Lógicamente, esta manera de proceder presenta ciertas ventajas sobre otras alternativas y, en especial, sobre todas aquéllas
que exigen una mayor elaboración de los datos individuales de partida (o
"microdatos"}. Efectivamente, la tabulación posee, cuando menos, dos
atractivos indudables: su rapidez de obtención y su facilidad de lectura o
interpretación.
A pesar de estas importantes ventajas y dependiendo de los objetivos del
estudio, la tabulación puede dejar de ser la forma óptima de presentar los
resultados de una encuesta, viéndose superada por otros métodos multivariantes más sofisticados, como las dos que constituyen el tema principal de
este artículo: las técnicas factoriales y la regresión logística.
Sin embargo, antes de pasar a describir brevemente ambos métodos en
la sección 3(poniendo mayor enfásis en la regresión logística, dada su
menor popularidad), se empieza enumerando en ta sección 2 las principales
deficiencias de Ia tabulación mostrando, en particular, un ejemplo real del
fenómeno conocido como "Paradoja de Simpson". En general, el enfoque
dada al artículo es eminentemente práctico y descriptivo, por lo que, en la
sección 3, se ha eludido el desarrollo teórico detallado de ambas técnicas
(citando, eso sí, las referencias bibliográficas fundamentales}, a cambio de
aumentar el número de ejemplos ilustrativos. Por ^ ltimo, en la sección 4, se
recogen algunas reflexiones sobre la utilidad de estos métodos en el ámbito general del diseño de una política de difusión de resultados.
2.
PRINCIPALES LIMITACIONES DE LA TABULACION CLASICA
2.1 La " Paradoja de Simpson": un ejemplo extremo de los peligros de
una estructura tabular inadecuada
Consider-emos el siguiente ejemplo. Supongamos que disponemos de
datos sobre los fallecimientos acaecidos durante cierto periodo y la causa
que los provocó y que se pretende mostrar la relación existente entre el
sexo de la persona y la propensión a fallecer por determinadas causas (por
ejemplo, las englobadas como "Enfermedades del aparato circulatorio""}. La
^I c^I
t^ti I I^ tilc ^ti tit^ I I I^ ♦ Fll \ ♦ 1 I ti ^ I II I^
Z117
soluciór^ "trivial" a este problerna vendría dada por la Tabla 1, donde
figuran, para cada sexo, !as tasas de mortalidad por 100.aoo habitantes
según la causa del fallecimiento.
TABLA 1. TASAS DE MORTALIDAD SEGUN LA CAUSA Y EL SEXO^, POR
100.000 HABITANTES
TODAS LAS CAUSAS
ENFERMEDADES INFECCIOSAS Y PARASITARIAS
T 770.99
V 82 fi.49
M 71 7.50
T
10.50
V
12.73
M
s.3s
TUMORES
T 1 55.70
V 1 84.87
M 12 7.58
ENFERMEDADES CIRCULATORIAS
T 353.36
V 339.50
M 366.73
RESTO DE CAUSAS
T 251 .43
v 289.39
M 214.83
FUENTE: INE, Movimiento Natural de la Población. Año 1980. Defunciones según la causa de
muerte.
A partir de los datos de esta Tabla, se puede sacar la conclusión de que
las mujeres corren mayor peligro de morir a causa de una enfermedad
circulatoria que los hombres, siendo la diferencia, además, bastante notable
(casi un 1 0%). Este resultado choca frontalmente con el conocimiento
médico actual, que pronostica un mayor riesgo de contraer enfermedades
circulatorias, en general, a los hombres. Sin embargo, la teoría médica está
en lo cierto (o, al menos, la Tabla 1 no puede considerarse su refutacióny:
basta con desagregar las tasas de dicha tabla por grupos de edad, dando
lugar a la Tabla 2, para comprobar que, para cada edad fija, los hombres
afrontan un mayor riesg0 que las mujeres (tal y como aseguran los médicos).
F tiT ^^[)ftiT It ^^ F til'1\t)l •^
TABLA 2. TASAS DE MORTALIDr4D POR CAUSA "ENFERMEDADES
CIRCULATORIAS", SEGUIV EL SEXO Y LA EDAD, POR 100.000
NABITANTES
_ '\
ANOS
SEXO
VARONES
MUJERES
353.36
339.50
366.73
61.1
4.0
65.$
4.5
2.3
56.0
3.4
2.7
2.6
TOTAL
C U M PLI DOS
TO DAS LAS E DA D ES
Menores de 1 año
De 1 a 4 años
De5a9años
De 10 a 14 años
De 1 5 a 19 años
De 20 a 24 años
De 25 a 29 años
De 30 a 34 a ños
De 35 a 39 años
De 40 a 44 años
De 45 a 49 años
De 50 a 54 años
De 55 a 59 años
De 60 a 64 a ñ os
De65a69años
De 70 a 74 años
De75a79años
De 80 a 84 a ños
De 85 y más años
2.5
3.5
4.8
9.2
1 3.1
1 7.6
2 8.4
53.9
85.6
1 56.6
267.s
450.9
81 7.3
1 563.1
3034.7
5720.4
11451.7
4.3
6.2
12.1
17.1
2 3.9
39.0
75.7
120.2
22 5.7
386.7
63 5.9
1091.4
1969.9
3 604.0
61 7 6.2
1 1 523.4
3.2
6.3
9.0
1 1.3
1 7.8
32.6
51.3
90.8
1 57.7
299.4
605.0
12 60.4
2669.9
5463.2
1 141 9.2
FUENTE: INE, Movimiento Natural de la Población. Año 1980. Defunciones según la causa de muerte.
Nos encontrarnos, por tanto, ante un ejemplo (1 ) del fenómeno conocido
como. "Paradoja de Simpson" según el cual las tasas específicas según
cierta variable (edad) pueden ser todas ellas (2) mayores er^ un colectivo
(varones) que en otro (mujeres) y, a pesar de eso, las tasas brutas presentan la relación opuesta {366,7 para las mujeres frente a 339,5 para los
hombres, según se deduce de la Tabla 1).
(1 )
No artificial, además, ya que los datos están sacados de la Estadística del Movimiento
Natural de Ia Población, que elabora el Instituto Nacional de Estadística.
(2 )
En realidad, existe una tasa específica (1a del grupo de edad de 5 a 9 años) que se sale
de ia tónica general, pero, dada su escasa importancia numérica, no deja de constituir una
anécdota que viene a confirmar el carácter "'vivo" del ejemplo mostrado.
^I (^t ^^^; 1 k c^t^ ^^, 11t I t ^^ ^t.t ^^ 1 t^ t t il t ti
Por tanto, si ingenuarnente nos hubiéramos conformado con !a imagen
mostrada por la primera tabla, nuestras conclusianes hubieran podido ser
totalmente erróneas, no ya en la magnitud de la sabremortalidad de un
sexo respecto al otro, sino, incluso, en el signo de dicha sobremortalidad.
La justificación teórica de este fenómeno es sencilla y breve. Consideremos una variable categórica J con j rúbricas o categorías diferentes y sean:
P; : total poblacianal que presenta la rúbrica i-ésima, i=1 ... j.
^
P - ^ p' ; población total
W; = P;/P : peso o ponderación del grupa í-ésimo, i=
,
: tasa " específica" del grupo ^-esrmo, ^=1 ... /
Dada esta notación, es inmediato comprobar que tB se puede escribir
como:
te = £^ w; •
es decir, una tasa bruta se puede escribir siempre como media ponderada
de un conjunta de tasas específicas según determinada variable.
Consideremos ahora dos subpoblacianes distintas {hombres y rnujeres,
dos provincias, dos países, etc.), y utilicemos los superíndices 1 y 2 para
diferenciarlas en la notación anterior; entonces, tendremos que:
f
^
;-r
w^r
, • t',
^
t,BZ _ ^ w 2 . t^2
La "Paradoja de Sirnpson" consistiría, dada esta definición, que siendo
las tasas específicas de una subpoblación siempre mayores que las correspondientes a la otra suppoblación (por ejemplo, t,' > t?, para cualquier
rúbrica i^, sin embargo, las tasas brutas presentan la relación opuesta (es
decir, t^ ^ t^^. De las expresiones de t^ y t^ cor^o su ma de los valores w;• t,
correspondientes, se deduce que la explicación de este fenómena, aparentemente imposible, viene dada por la influencia de los pesos w,, que pueden presentar una estructura muy diferente en las dos subpoblaciones.
^ IO
f 5T -^l)Iti i l( ^ f ti{' ^tc)I 1
La impartancia práctica de esta paradoja radica en su posible aparición
en los carnpos de investigación rnás diversos. Además, aunque la exposición ha sido hecha en términos de tasas, el concepto de "Paradoja de
Sirnpson" puede ser fácilmente generalizado a otros contextos. Por ejemplo, en !a técnica estadística conocida coma "Análisis de la Covarianza", un
fenómeno simílar es denominado "Paradoja de Lord`" (por ejemplo, Lord
(1 967) o Holland y Rubin (19$6) ). Otro caso de especial relevancia práctica donde este fenómeno puede dificultar la interpretación es la comparación de los valores medios de una variable continua (por ejemplo, el gasto
de los hogares en determinados bienes o servicios) en subpoblaciones
distintas Idefinidas a partir de variables categóricas como el tipo de municipio, la provincia, la composición del hogar, etc.), que también suele aparecer con frecuencia en estudios de la más diversa índole.
2.2 La naturaleza eminentemente "descriptiva" de la tabulación
EI fenómeno comentado en el punto anterior no deja de ser un caso
extremo que, en estado "químicamente puro", es raro de observar en la
práctica. No obstante, sirve para dar una idea de hasta qué punto la
interpretación de una tabla estadística puede resultar tan compleja como
para impedir la extracción de conclusiones válidas.
En la Tabla 3., se presenta un caso en que, sin Ilegar a darse la Paradoja,
una observación ingenua de los datos ofrecidos podría crear una imagen
totalmente distorsionada ( en este caso, de la magnitud real de las desigualdades en en estado de salud dependiendo de factores socioculturalesi.
Efectivamente, en dicha Tabla se observa que la proporción de personas
discapaces en los hogares cuya persona principal es analfabeta es más de
icinco! veces superior a la de los hogares con persona principal licenciada.
En cambio, la construcción de un modelo de regresión logística (técnica
multivariante que se explica en el punto 3.) que intentaba explicar las
varia^iones de la probabilidad de ser discapaz en función dE factores geográficos, demográficos y socioeconómicos, dernostró que, una vez descontado el efecto de las otras variables (principalmente, de la edad), la desigualdad irnÑUtabI ^, rnás o menos directamentE, al nivel educativo de la
persona no sobrepasa el 100 %( frente al 400 % deducido de la Tabla 3.).
-^L(^l'^•^^ I f('`I('-1ti ^1l l T l^`•^RI Z\T f 5 l T Il f^
ill
TABLA 3. PERSONAS CON DISCAPACIDADES POR 100.000 PERSONAS DE
CADA GRUPO DE NIVEL DE ESTUDIOS
DISCAPACiDADES
TOTA L
NUMEHO
TOTAL
Ver
Oir
Hablar
PERSONAS
T a T A L . . . . . . . . . . . . . . . . . . .38.341.1 30
Otra de
Cu^dado
comuni-
personal
Andar
cac^ón
14.979
2.132
2.378
507
574
1.149
2.237
..... 2.329.74a
30 731
5.783
4.762
1.181
i.533
2.830
4.761
Sin estudios ...............12 1 69.1 5Q
20 837
3 010
3.204
643
741
1.664
3.21 5
Enseñanza de 1.e' grado ..
.. 14 365 230
1 2 398
1 567
1.989
438
491
843
1.830
Enseñanza 2.° gr. 1.ef ciclo
.. 3 367.1 30
8.440
1 035
1.437
287
21 1
594
1.1 59
1 441.513
7 41 3
1 125
1.372
266
285
548
979
i.s66 978
6 366
871
1.240
303
233
430
834
20.363
8 948
476
2 578
-
1 52
629
2.72 1
NIVEL OE ESTUDIOS ALGANZADOS
No sabe leer ni escribir
Enseñanza 3.ef gr 1 e` CÍCIO ..
Enseñanza 3.er gr. 2-3 ciclo .
NO consta
............ .....
Fuente: INE. Encuesta de D^scapac^dades, Def^c^enc^as y M^nusvalías (1987).
Por tant^, la idea básica que hay que retener, con vistas a una correcta
interpretación de las tablas estadísticas, es el carácter "bruto'" ten contraposición a"neto'" o'"estandarizado"") de su información con respecto a las
variables relevantes que no hayan sido introducidas en la tabla. Lógicamente, esto podría solucionarse, en principio, añadiendo más dimensiones a la
tabla ^como se hizo al pasar de la Tabla 1 a la 2), pero esto nos 1levaría, en
muchos casos, a la limitación tratada en el punto siguiente.
2.3 La imposibilidad de considerar simultáneamente un núrnero elevado
de variables
Con el ánimo de evitar las complicaciones descritas en los dos puntos
anteriores, a menudo se siente la tentación de diseñar tablas donde se
cruzan simultáneamente un gran númera de variables. Esta solución no es
muy recomendable, debido a muy diversos motivos.
En primer lugar, hay que considerar el soparte bidimensional (a la sumo,
tridimensional) de las tablas y, en cualquier caso, la incapacidad humana
para "ver" en cuatro o más dimensiones. Por supuesto, siempre es posible
transformar una tabla de cualquier dimensión en una sucesión de tablas
bidimensionales, pero en cualquier caso la lectura y manipulación del canjunto de subtablas resultante se torna sumamente engorrosa e incómoda.
P
l^ 1\ f>Iti 1 I^ \ t ti!' \^^ ^) \
Además, existe una limitación mucho más grave aún, que aconseja no
diseñar tablas con un número excesivo de variables: la creciente aparición
de celdillas vacías y, en general, la paulatina disminución del tamaño muestral de cada und de las celdillas, con la consig^^iente pérdida de precisión en
las estimaciones, a medida que la sucesiva introducción de variables las va
haciend0 multiplicarse en número. Por tanto, cuando la naturaleza del
problema exige 1a consideración simultánea de un número elevado de
variables, es necesario recurrir a técnicas multivariantes específicas que
usan la información disponible de manera mucho más eficiente.
2.4. l.a dificultad para obtener visiones globales o esquemáticas del
fenórneno estudiado
Cuando el núrnero de categorías de las variables que forman una tabla es
muy elevado, la "visión de conjunto" del fenómeno puede resultar muy
complicada, cuando no inabordable. Esto es perfectamente lógico, sobre
todo si se tiene en cuenta que el objetivo esencial de una tabla es aportar
información fácilmente legible al nive! de desagregación elegido {en muchos casos, el máximo que el tamaño muestral de la encuesta permital, por
lo que, en general, la obtención de una visión esquemática no constituye su
finalidad prioritaria (más bien, todo lo contrario).
Por tanto, siempre que interese conseguir una imagen más '"parsimoniosa" de la realidad, será aconsejable aplicar la técnica multivariante ad^ecuada para este fin, conocida, en términos genéricos, como "Análisis Factorial", y que se describe brevemente en la siguiente sección.
3.
ALGUNOS METODOS MULTIVARIANTES ALTERNATIVOS A LA
TABULACI©N
Dadas las limitaciones que, según acabamos de ver, presenta la tabulación clásica, tiene sentido buscar métodos complementarios que permitan
corregir o, al menos aliviar, dichas deficiencias. De entre las muchas alternativas que se podrían proponer, en este artículo se han elegido dos
radicalmente disti^^tas: las técnicas factoriales y 1a regresión logística. Por
supuesto, existen otros muchos métodos multivariantes capaces de enriquecer la visión suministrada por la tabulación; por ejemplo, cuand0 la
variable de interés es continua, la regresión "clásica" cons*.ituye un instrumento "estandarizador" muy potente, análogo a la regresión logística en el
caso cualitativo. No obstante, en este artículo se ha optado por poner
^ I(^ 1 ti 1 ti f E(^ I( ^^ ^ t l l ^ I ^^ F21 ^^ i f^^ t 1 I E I^
^ 1^
especial énfasis en este último tipo de regresión, valorando, por un lado, su
vasto campo de aplicación (en el terreno de los estudios sociodemográficos
muy particularmente) y, por otro, su relativo desconocimiento si la comparamos con otras técnicas de regresión más populares.
3.1 Técnicas factoriales
En realidad existen varios métodos "factoriales" que se diferencian sobre
todo, aunque no únicamente, por la idoneidad de cada uno de ellos para
determinado tipo de tabla estadística (dependiendo de la clase de variables
que la conforman); así, cabe distinguir entre:
a) Análisis de Componentes Principales.
b) Análisis Factorial (propiamente dicho).
c) Análisis Factorial de Correspondencias (o de Correspondencias MúltiP les )
A pesar de que cada una de estas tres técnicas presentan ciertas peculiaridades que la distingue del resto, todas ellas persiguen un objetivo
común: resumir la información contenida en el conjunto de variables
originales mediante la construcción de unas nuevas variables ("factores"
o""componentes""), mucho menores en número, que permiten una visión
mucho más simplificada de la realidad objeto de estudio.
Si se desea conocer en profundidad el desarrollo teórico y las posibilidades analíticas de cada una de estas técnicas, lo mejor es acudir a referencias clásicas como son, respectivamente, Jolliffe (1986), Harman (1976) y
Benzecri (1 980). En este artículo, nos conformaremos con mostrar gráficamente las ventajas e inconvenientes de la tabulación clásica con respecto a
estos métodos, eligiendo una misma información de partida (personas deficientes según el tipo de deficiencia y la provincia de residencia) y presentándola:
a) En forma tabular (Tabla 4.)
b) En forma gráfica, después de haber aplicado un Análisis Factorial a
dicha Tabla (Gráfico 1.)
De la comparación de ambos medios áe representación, se deduce que,
frente al mayor grado de detalle que proporciona la tabla, el gráfico contrapone una mayor simplicidad y, por tanto, una mayor capacidad de síntesis.
Por tanto, en la mayoría de los casos prácticos, estas dos alternativas de
presentar los resultados se complementan de forma muy satisfactoria.
I ti I^ 1)!ti f l( 1 1 til' 1 O( ^1 1
Z^ = u`
L± W W
2_
^
Z
W
ó^^$^^^^^^^^^^á^ ^á^^^^^^^^^^ ^^^^^^ ^^^^ó^
^
.
.
.
01
N^- t0 v•-
^I
+f
M O 4L1 ^ O 6A f^
^
O^^
.
.
.
l^1 '^- ^t r O O r 1D O O
r- frt M N 1^ •
fr1 M O IA l'^f f^f
o?
`^ P'3
^ ^ G{t7 b
8
^ N/^ ^ N
^
8
8
ÑQ f`^'l Y^
~
ap ^ Ñ O 1!t Ñ 10 O^!f ^I 8p
O 1 ^Q ^ O1 '1 N «ff11
^ W
^
C
Ñ 1^
0 OD ^D I+f O Ir . O
N O
^ N
^+y CD ^ p N p
^ ff^
x
O
f^ ^O N t0 f^. O
^^1
^
Ó Ó Ó C7 C^ C^ C]i .^ Ó ^ Ó C! Ó ^^ Ó
Ó Ó ^ •- •- 1^ Ó Ó Ó t+1 .-^ C^
^•= .= Ó C1 O
Ó O Ó Ó C^ O
<
^^
t
^ U
t^
^^ hp 1!
l^
h
^
f^
^
r^-
^
v
n
N
N
♦
•^ tp ^p ^v P. I!1 I^. Q^ O 1!1 N OD p ^^'
!+^ ^ C'f ^1 N!'7 N ♦ l'1 N N f'? 1'7 fV N+"1
VI
f'^
h^ 10 Ñ tt^
^^^jjj
•'
01
n O1 n e'1 Qf Q N f'^ N u0 QO •
N N ^ M+- c^i v^- f'V N+- N
r
N M Ñ ^I N 1C/
M l`7 1 Ñ tV Cf
1A
~
^ +^ ^O
•.^ry N
f^ ñ ^ tD iV ñ
G O^^ Q O O O O O O O O O O O O
O O N O O O
O O O ^ O O
^ 00 ^ ^ A O '^ N u^ CTf ^D O N ^ ^ W ^ W
N Q'f Q1 W ih t0 ^C W 1^ M t^ 01 n t'1 M tL!
^ Qf ñ tV O^ n GD
^ O ^^ ^
uD ^
f'^1 ^^ f^ f'f n N t"! ^- N tD C'^ v
^^`^1 ^t C'^)
^ O ^
['7 Qf !"f N t0 n
CO CD N^!f
^L1 1•^ C^f ^O
_
O ^
o_D ^^
^ J^ ^ ^O Ñ^^l1 ^ tÓ ^^ d
f'^'1
Ñ CD CD v
^n n
°i0D
N
ó ^i
`
^
t"1 N
v ^ ^ ^ ^ hl n
^
Vf ¢
yy Z
+^ M^ O O^ N N^ O^^^ N Ó t"1
^- i ^ a0 ^^^^ m
^ ^
l'f
p O
(^rl. í^
Ñ M
1 J?
^ OD t0 N^D N ^
^-
^-
`ñm`^iX^
í h e^s
O^
,̀^^ Naoc^
O r1 n^
N v O N^ O N r- f•^ *-
♦
GO S
^ ^ ^t1
`ó^°^^^
cnv, ^^
•- +
N r
♦
^^^
+
^
O^
• f^
r^
0 ^1 ^
Q
n.^áñ
°ó3 ^`°
N N N ♦
O N
p d^^^ CD
Q
í^
Q ^ O
CS
N ^
^A Q.- N
^
s
^ ^^
t A 00 tp
l^ •- O v G1 ^
^^-- O^- N O O^^ 0 O r- ^- O N O
O O^ - r- Ci r^- p r - ^ - tV r -
r- ^- r- N O •-
^- ^-' ^ N^-
^ ^l1 ^ d^{G ^
t0
P1
^AQ
ef 1p
O CO
d1r^ hO
Q
f'^ N ^D N
O Ofr 1!'1 N r- C7
_ ^ +n
OCS N Q pp N
0 P^ 00 Gt1 N
d.^ f^ O^ Q] ^ N+ ^t ^ ^ A ^ ff ^ - ^
^D r! n R^ !'9 t'7 V+n ^f ^ O O O N^ O
N^ t0
Iff ^p O N U4 ^ GO 01 N ^
N Qf M ^ (1 f' } O n f `' ) Q N N
N M^+I f"') d N!"1 f"S OD 1"f N
^^ tl 01 Ñ tQD
^ t^y Ñ
^ f^^ N P^
N^A
^,r. ^ Ñ
^•.
( ''l Q C7 r f^ 1'^
v fh ^J f"1 M M
^ tn ^ m N ^ IA f'^ ^ ^L1 1D 00 ^^ Ñ^
Q tfi tÓ Ñ 01 r^ v CD f^ ab r- 1Á iñ t0 r atD
I D^ CD ^ V^^1 ^f'1
^^^ ^t ^ n
^li t^ ^ 1D u^ ♦ oD v frf tÓ P") ^f
( Z?
N ^t1 Q '+ OT t0 N$ OD ty
^ ñ
G N O'^ l*f ^ r1 C1 N ^
^ 1,7 ^
^
(rf
^
^ QMf CD {^
g vÑ
M
w^n°c^ r^ ^+ °a$^ [^ ``u^r^
oD
Nd^i
Os a) ^D
n
1^ _
< 1C Vf
^^
1'`
iA M ^
^ ^ ^ ^ ^ ^
^ aD
^^^
♦
O a1 {^^^
^ tD ^ ^ Ñ ^ 1Í1
^ O
C? M^f
N ^ ^ N
^ ^ ^ W N ^
O Q O O O O r- d G O p O
^
k 1/1
~^
Z^
^
♦
^^^^ó^^^^^^^g^^m ^^^^^^^^^^m^_ ^^á°^^ ^^^_ ^^^
^
^^y
^!'f N h^^1 f3
^_D Of
^l'1
f''f ^•..
. ` 1 C!
01 ^ l"f ^ f^ U1 O U ^
v N n CD W d M ^
fr1 P^
Q1^/ 1A f^ '+ f^ _N fN^^^O,' ^
M f'^f
P
^
^ N 1L1 G^ ^y
O D ^ t! O Q Q f '1
N^O l`1 v C'é v
M^^ ^
^
^
0
¢ a
< w
ac
^
•-
vf ^`f
^ tp
i 41 00
o _ ^j
^^
N 4 fh
a ^^ ^^ Ñ
Q1 O('^ In OG
r^^
^ C)
^ tC
^ ^
r- f"1 t^ N 00 Os h v P'1 K) m tG . t'^f Nf 1p ^f!
`
(V s^ r ^-
< Ó
^A ^G
f`V t'7
r tl
Ó Chn Cp tLf t•'1 v N pp p^
O^A N 07 Ci d O^
^
r
r
C'f I^ ^- ^!1 O ^D ^`1
t"] •p i!1 ^ N n f'^')
O
Q O tG Q
`O
10 Ol Ol
^
+
+
^t GD N
^ I^ ^^ C'
V
P'7
^
rn fy un •Q ^1ry
C
f^f"S Of
h W ^ tO 1•'t
v 01 ^ Crf
^ íyl
n
;D 1l1 1t1 ^f 00 Q^ t"'^ .f^ 0 f'1 M N N^^'
V
.- N
N ^A QJ N p P^
^ .- ^t1 T 00 ^- f''f l^] v
O
N N n ^- v fh N
00 N^ V K7 ^A n^^A O C^ .- ^- tD N O
^
r
.Q.-
M
N O 1^1
O N N f^ Ol OD O tñ O^ t0 h
r
¢ N
f"') O M f'7 f7D 04 V^^L1
o
N[p")^ Ql ^^p O
^n
h fr1 0^
tD
^ N_ ^ 47 v N fly
'^
I^
ÓW
W
Ñ tD N d i'7 01
1`^ P^ 10 ^ N^
•-
O ^-
^
G Of ^ N ^ ^f1
1A ^V^ f`^ tÓ ^f Ó
r•
r
r
r
r
.-
v Q1 r^ ^y
c^
^p O1 N tfl ^
M
Qi
^ 11S c'r1
^ GD ^ m
^ 1^ I^
O) Ó N
r
^
r
(V
^
r
F
01 f^
p p
{_n i_D l1i lptp1 Cq] C_D
N 00 ^- M!Ll Ol
^A b e'^1 C'1 i0 Ch
^-
r
^-
e+
r
C1D N N
O f^1 N
CD O Q
(°1 ^ N
^ f^ 01
tp ll^ W n tf1 ^Tf
O^ Of iD f!1 ^
P C^
O O i^
N N dU
Q
r OD
N ^^
^D OD 1l') P'1 N r- .- O cV a7 .- GD
^fi f^i V O Oci crf
^1'1 ^I'i ^[1 ^l'1 O t[^
^^viy ^ ('n' Q
^
t ,^j O O^A NI ^ ^( 1 ^
pp Ñ Ñ ^
V ^
♦ Cf ^- ^- N Q^- Ó ^ lrI fV Ó
^ tt1 ^ r n ^
r- Ó r- nl N N
^^^^ ^ ^
r- ^- O N ^*-
+
^
O lfl t7
r
N!D ^.
r
v
tl^(T
^ m
r m^!
N 1^ N 1T CC ^
Ql
Ol
W ^
C7 z
1'^ Ñ^ Ó1 Ñ W Of ^ ^ Q, d1 ^t ^f1 1^ ^ ^
M
d^ f ^ R^O [+l G f ti O1
eT ^ ia C1 LA
+u
J
Ó N r- N+^= N^V r^- Ó N M tV Ñ ^ ^
S Ñ
^^O f`i ^ t0 ^^^ 1!1 O O 00 ^- .- m t ^'f
tl n
t0 d I^ ^
^ ^ N^ Of ^('^ O
^ GD d ñ!+f ^
N^ f^ ^ f^ ^1
G>
CO r- ^n .= CD CD
r.-^ r r
t^ rl l^
r.^
^f C) f^ IV n vi Q^ tD Ó
.^ ^•r
r-
OD Oi 01 f"1 C.^ I!`'f
r r^r
^- n1 OÓ 01 f^ ^
r
r r
^ O
Ó C'i ^-- Ó P^ P^ 00 tD un f i
r^-- r r
r
^ p ñ Q ^ /'f ('^') ONi st N O O W t^0 Cf Ó ñ
01 ^ v Q M O ífi ^ dD 8 Q íNA
tD OQi t^0 V 00 ^
O fa ^ O! ^ G^D
^
?
ó °^iinr.^^^
^
r- ^ `Óri
n
V v±n^ `°
h, ^
°
OOD^oii
ó ^áo$r^áo^oó©ñ
°
c^í°vó °á^ic^
^
b^-' ^ t'7 CO n n N^ N r- 1C^ ^t Q} •- tn
•- •- •- • •-- ^ ^ ^ . - r ^-• ^
N O n Q1 N 0 O d O'J V N n
r- ^r - r r (y
r- r
N^ n^ n f'^
^- r ^^r- r-
n
n,
á^cvócv
^
N tV ^A n N N
r r^- • - - • - •- ^-
c^c ^
()
_
^
fy^^ ^j p
^ N
^ N í^ ri
M ñ O íñ ^j p
n^ ^^^j
N ^ ^ O C") t0 f`') ^ O1 W Of n n N
• d
t'1 v^ as ^ í^0 [1D n
^y íN
p^ íN
O N
^ rn M
-i h
ó^
p^ i
n
^^ V N Cl tf'I N f'^ Itl 1^ 00 ^
N ao ooO^ 00 V
c v í^ ^
rn o ^ nO
'
^ N
^
C^ l^ N r-• N O O c'f ^ O a O O.- p c0
N ^t N C') ^- O N O p.- r N
.- .- ^ O.- Ó
^- N tD r- O N
^
^`
t
rM
- G
I"M^ t+^
N ON
_1 p^
^ 00 C
_ d0 OMS ('^} (gj ^7 ^ fQ1
Q^1 Ch
^D Q
W^
l'd•1 M 1/'1 O1 tl0 f'M^ Ó Ñ t^0 Op0 Ñ 01 cpD t0 M Ctl^]
Z^
tl^D O1 h• G1 M^t C3 tG ^- N N N t0 ^ V
^ ^!'1 N N 4 1+ ^ t^6
^ ^ ('^> pq
_
N pp
n ^$ 111^^^r M
t0 v Ñ d^O ^ pg f V
N C7 r-^ v C7 v CS N N N C'^ CV
r
CnD
I
W
CS j
^
W
p Ó 1^ a0 M^
r^ Ó Ch0 N c^ M rn t^
c
^^
Q
^
n Ol n 41
Q^ e"p^ ^
^ 4 r^
N^ CV ^
^
00
^_
n N^+ f•M^
p^ 1''M'1 /.
CO.
_S t8 ^ Q^
pp
^ O
(^
^^^ O Ñ^D
C^ 1n ^ U^0 C^f 00
C7
C'1 tn N^1 ^ 1[^
W
^
r N N
r
r
N
^
Cp
Q r
2 Z
^^
Q
O M ^%3 _C'1
^^1
m N o(`
é^ f^ q^^ d1 n
h QO d ' n i
^ N ^
n
^n
^+ ^D 1[S ^ ('^
M n V^^ d N W 01 ty1 N
V 1A 1D P^ f^ In fA f`^ 10 N f'7 4 rf f^ t'h ^
u^ lY ^ M ^ l!'1 ^ O^ N 8
^n t0 R 00
l' 7 (7f ^07
^ l + tT1 ^ ^ - Ch
OWD OI
P+
d O If) r- In !d ID ^Ó f'7 !^
^` ^
•-
d
G
P
^ 1A
Af N
N O
v n
Ill
^tt ^
N 01
N r^p ^A ^O
^
•^D ^ ^y
M
N N i0
^(1 ^ ^[1
+ t!S
01
^p ^
^
q ^ Q^
^ v^
O V f'N^! 01 ^ G
t0 M Ci t0 t`7 t'7
N
^
^
U
C
LsJ
W
Q
q
^^
A
^
--^
Q
Q
z
q ^: u Q^
q
aA,i
A Z Q^ ^
^
J
N ^^^ E V^^ Q N r0 q• q ^ q ..J
...
^
^
q A/
J U a
G ,^
J^ O q 0 J
^^
° ^
É b•ó ^ ^ ,^ ^•^ p
a ^ 2 Á Q Ñ ^ Ñ ^^^ z z p^ • ó ^^^.s ^°
C v^i Z Á v^ Á ^ v^i ^ ú ó ^ L
^ V q CL N Q rp ^0 a^ Q Q ^ ^ v r0 rH a1 O ro C
•^O •Ó e 7 q y ^
q Q O 1^ ; 7 7 p Q Q ^0 V•a1 ^O a
Q CJ t^ la 2"1 .^ N Q= F^ N Q Q¢7 _..J 1^ v<J U Q o^ ^ 0. Vi N N ^ N tJ ..^ Q U Ci U M'- U J ti^ Ci J ^- U
^
z
w
^
LL
^^1 t;l ti ^^S T
c^^i<^^^^; ^^t i riv.^Ki^^^r^^ I rii F^;
.
1
t
Z
t
^
W
J
<
a^
a^
<
0
.
<^ f
^
^
>
^
2
.
2
C
cg•
^
•
R
O
•
C
O
3
1
•
W
f-
^..^^^
O
s
?"'^^.
0
h
StlI^N31^1^3Q 3a lt^>;i3N3J ^3/^IN
^^^
.
O
r/
^l9
cv
(
^
O
c^
1
^
W
^
^1.
E ^r ^n^^i i^ ^ f ^r^^^c^i ^
No obstante, el inconveniente c^tado en 2.2. (es decir, el carácter bruto,
no estandarizado, de la información tabular) no se soiuciona mediante la
aplicación de técnicas factoriales; por tanto, cuando se está interesado en
estimar la relación neta entre dos variables, es necesario uti^izar otro tipo
de método multivariante: el Análisis de Regresión. A continuación, se
exponen las principales características y aplicaciones de una de estas técnicas, la Regresión Logística.
3.2 La regresión logística: un caso particular de modelo de respuesta
cua I itativa
a) Formulación general de !os modelos de respuesta cualitativa
En rnuchos casos prácticos, la variable respuesta es dicotómica (por
ejemplo, estar o no parado, consumir o no determinado bien, padecer o no
determinada enfermedad} o, .en general, cateyórica (elección de una carrera
universitaria, tipo de establecimiento donde se compran determinados productos, etc.}. En estas situaciones la regresión "clásica" (que trata de
explicar e! nivel de una variable respuesta continua en función de un
conjunto de variables explicativas} no es el método más adecuada, ya que
sus propiedades óptimas están basadas en unos supuestos que dejan de
cumplirse cuando la variable respuesta es cualitativa.
La regresión logística constituye uno de los muchos intentos realizados
(aunque presenta alguna ventaja sobre los demás} para adaptar la teoría de
la regresión a estas nuevas hipótesis de partida. Para mayor claridad de
exposici ^ n, supondremos, sin pérdida de generalidad, que la variable respuesta, "y", es dicotómica y, por tanto:
1, si la observación i-ésima presente la característica (por ejemplo,
esta r pa rado)
0, en caso contrario
Asimismo, definiremos "p;" como la probabilidad de que la observación
i-ésima presente la característica en cuestión, es decir:
P;^P(Y;=^}
Supongamos que también conocemos, para cada observación, los va^ores
de un conjunto de variables explicativas, englobadas en un vector X;. EI
objetivo de cualquier tipo de regresión cualitativa consiste en medir la
variación experimentada por "p;" en función del nivel alcanzado por cada
variable explicativa, cuando el valor de los demás factores considerados
se mantiene constante.
^ttc^t ti^^ 1tc tiic >ti ti1t l ltti-^Kt^titES t ltttti
^t7
La formulación maternática de cualquier modelo de regresión con respuesta dicotómica se puede expresar como:
p; = f (X;,^3) + u;
(3.1.)
donde "f {X;,^)" es !a parte sistemática del modelo que depende de1 vector
X;, y"u;" es la parte aleatoria, que refleja el hecho de que la relación entre
"X;" y"p;" nunca es exacta. Por su parte, ^3 es un vector de parámetros
desconocidos a estimar que constituye el "output" primario del modelo, ya
que cada uno de sus componentes, "^3^", míde el efecto que una variación
en el nivel de ia variable explicativa correspondiente, "x'", ejerce sobre e1
valor de !a probabilidad "p".
Dependiendo de la forma funcional "f' elegida, obtenemos los distintas
tipos de regresión cuafitativa. EI caso más trivial consiste en:
f(X r^N) = X i • l-' + xi N 3' + x^N2 +...-1- Xnf^n
(3.2.)
obteniendo el "modelo probabilístico lineal":
x' j3 ^ + X? ^32 + . . . . + x" ^3„
(3.3.)
que puede considerarse como la adaptación inmediata del modelo clásico
de regresión al contexto cualitativo. No obstante, este modelo presenta
varios inconvenientes entre los que cabe destacar, por su evidencia, e! que
se deriva del hecho de que "p" es una probabilidad, por lo que su rango de
variación debería estar comprendido entre 0 y 1. Entre los distintos modelos propuestos para subsanar este y otros problemas, cabe citar el modelo
'"probit" (basado en la función de distribución normal) y el modelo de
..
regresión logística" o modelo "logit":
p; = 1 / (1 + exp (-X; ' ^3) )
( 3.4.}
o bien:
ln(p;/(1-p;))=X;•^3
(3.5.}
Este modelo de respuesta cualitativa es, sin duda, el más utilizado, debido, entre otras razones, a la sencillez de su expresián explícita, de fácil
manipulación algebraica, lo que supone una cualidad muy interesante a la
hora de elegir la presentación de resultados más adecuada (como verernos
en el punto siguiente).
t ti i \ E)I^ 1 It \ I^!' \\^ 11 ^
Dos de las referencias teóricas más citadas sobre el tema son Cox
(1 970} y Amemiya { 1 981 ^. Por su parte, en McCullagh y Nelder (1 983^ se
puede obtener un punto de vista más unificador, sobre todo en lo relativo a
la estimación de estos modelos. En cuanto a aplicaciones prácticas recientes, se puede citar los estudios basados en la "Encuesta de Condiciones de
Vida y de Trabajo" (Secretaria de Estado de Economía (1 988) ) y la
"Encuesta de Discapacidades, Deficiencias y Minusvalías" (Peña y Teijeiro
(1989^ f; en este último caso, se presta especial atención al estado actual
de la teoría en la diagnosis y validación de dichos modelos.
b1 La regresián /ogística como elemento eamplementario de la tabulación
clásica
La Tabla 5. ejemplifica la salida primaria típica de un modelo de regresión
logística.
TABLA 5. EFECTOS SOBRE LA PROBABiLIDAD DE NO PADECER
DEFICIENCIAS EN EDADES ADULTAS
NIVEL DE SIGNIF[CACION
EFECTrO
VARIABLE
YACAR
PA RAMETRO
P
X^
TERMINO INDEP.
1
2,33
0,0001
{12514.7)
SEXO (EDAD = 1)
-I(V}
-0.11
0,0002
([4.0)
1(H)
O,l l
-!(V}
-0,03
0,2836
(1.2)
1(H)
--1(V)
I(H)
-1(V)
0,03
-0,02
0,02
-0,04
0,1924
(1.7)
0,0007
(11.5)
1(H)
0,04
0,93
0,4ó
-0,28
-1,1 l
-0,4ó
O,OOOI
0,0001
0,0001
( l57l.7)
( 494.2)
( 281.7)
0,0001
( 562.8)
--0,05
0, l3
O,OOS2
0,0001
(7.8)
(24.6)
0,0001
0,0001
( 3SS.3)
(22.ó)
0,0001
( 570.5)
0,0001
(42.7)
0,0001
(32.4)
O,OOOt
0,4570
(54.7)
(O.ó)
SEXO (EDAD = 2}
SEXO {EDAD = 3)
SEXO ( EDAD = 4)
EDAD
ESTUDIOS
1(25-34)
2(3 5-44)
3(as-Sa)
4(SS-64)
I(Analf.)
2(Prim.)
3(Sccun.}
4(Supcr.)
I NGRESOS
E.C[YIL
COSTA
CONAT (TMU N I = 1)
CLIMA ( •)
MUNIClP10(')
1(bajos)
2(medios)
3(altos)
- f(casado)
l(soltcro}
-I(na mar)
1(mar)
-1(poca)
1(mucha)
l
2
0,38
-0,31
-O,OÓ
0,37
4,27
-0,27
-0, l
0, l
0,08
--0,08
0,34
0,02
;
0,1$
O,OW l
(45.6)
4
S
6
7
8
1
2
3
4
S
6
7
8
9
0
-0,14
--O,Oó
-0,19
-O,1S
0
0,08
-0,04
0,05
---0,13
-0,04
O,1S
0,04
-0,11
0,9ó l9
0,0001
0,021 l
0,0001
(0.0)
(27.9)
(S.3)
(37.1)
0,79I6
O,OS02
0,689
0,1728
0,0001
O,OS96
0,0001
0,039I
(0.07)
(3.8)
(3.3)
(1.9)
(! S.0)
(3.6)
(I9.7)
(4.3)
FUf NTE INE ^as d+scd^a^id'acles cfe la ^ot^lac^ón est^añola E l y8`.3!
^I^,^ ^^^ ^Ttr^l^ ^^^ til^ I ^^I^^^KI^^^rl^ I ill^^
^ly
EI principal inconveniente de esta Tabla es la difícil interpretación de los
valores de los parámetros, que no pueden traducirse directamente en términos de la variación de la probabilidad en estudio. Sin embargo, los
resultados de una regresión logística pueden presentarse de formas mucho
más intuitivas, y en último caso, útiles, para el usuario (a menudo, no
especializado en Estadística).
Así, en la Tabla 6. se presenta de una forma alternativa la información
contenida en los parámetros del modelo. En efecto, en esta Tabla se
recogen:
a1 Las categorías extremas de cada variab^e explicativa (la más "favorable"
y la más '"desfavorable").
b) EI incremento relativo de probabilidad que una observación experimentaría si pasase de una categoría a la otra, para valores "medios" del
resto de las variables explicativas.
TABLA 6. INCREMENTOS DE LA PROBABILIDAD DE PADECER ALGUNA
DEFICIENCIA EN EDADES ADULTAS
CATEGORIA MAS
FAVOR.ABLE
VARIABLE
SEXO (EDAD = 1)
SEXO (EDAD = 2)
SEXO (EDAD ^ 3)
SEXO (EDAD = 4)
EDAD
ESTUDIOS
INGRESOS
E.CIVIL
MUNICIPIO
COSTA
CLIMA
CONAT (TMUNI = 1)
CCAA
1
1
1
1
I
4
3
-1
7
1
1
--1
14
CATEGORIA MAS
DESFAVORABLE
o p(%^
(mujer)
(mujer)
(mu jer)
(mu jer)
(25-34 años)
(superiores}
(altos)
-1
-1
-1
-1
4
1
1
(hombre)
(hombre)
( hombre)
(hombre)
(55-64 años)
(analfabetosl
(bajos)
23,5
5,8
3,5
6,1
490,3
107,3
80,5
(casado)
(capitales)
( litoral)
(de montaña)
(poca contaminación)
(Murcia)
1
S
-1
7
1
13
(soltero, etc.)
(rnás de 10.000, industria)
(interior)
(rnediterr. meridional)
(mucha contaminación)
(Madrid)
61,2
24,8
19,2
59,7
14,0
165,2
FUENTE: INE. Las discapac^dades cie la pok^lación espariola ( 1 9$9 ^ .
De esta manera, queda resuelto el problema de que los parámetros del
modelo ^3^ no puedan interpretarse directamente en térrninos de la variación
en ta probabilidad de presentar la característica en estudio, ""p,"". Además, la
obtención, a partir de los parámetros, de ést©s incrementos es inmediata a
partir de la sencilla fórmula:
d (k-/^ = Pk [ (exp (^.^^) - exp (^^k) ) / eXp (^k) ]
[3.6.]
E^ I 1f)I^ F I( 1 f ti{'^^\l11 1
siendo:
d(k,^1: variación media de la probabilidad de no presentar la característica
estudiada al satisfacer la categoría k-ésima en vez de la ^-ésima (la
variación en términos de la probabilidad de presentar la característica se deduce de forma análoga)
pk: probabilidad observada de aparición de la característica entre las observaciones que satisfacen la categoría k-ésima.
j3k,/31: parámetros asociados a sendas categorías.
EI desarrollo detallado de esta fórmula y otras relacionadas ( por ejemplo,
las que aclaran la interpretación de los parámetros de variables explicativas
continuas) puede encontrarse en el citado estudio de Peña y Teijeiro
(1989).
No obstante, la información aportada por la Tabla 6. puede resultar
insuficiente para quien esté interesado no sólo en el cambio experimentado
por la probabilidad de presentar la característica dicotómica en estudio,
sino también en la magnitud (es decir, el nivel) de dicha probabilidad en
función de los vafares de las variables explicativas. Afortunadamente, esta
carencia de la Tabfa 6. es fácilmente subsanable con la Tabla 7., donde se
presentan las probabilidades estimadas por el modelo logístico a medida
que se van cambiando, una a una, las características de un individuo "tipo"
tomado como referencia.
En concreto, dicha Tabla presenta la probabilidad estimada de estar
empleado de forma irregular, a partir de un modelo logístico empleado en
el citado estudio sobre la Encuesta de Condiciones de Vida y Trabajo. Una
de las conclusiones prácticas más ""espectaculares" que se pueden extraer
de esta Tabla es la determinación de los "perfiles típicos" o"retratos
robot" de las personas más (o menos) propensas a presentar la característica en cuestión. Así, una mujer de edad comprendida entre los 1 6 y los 19
años, soltera, sin estudios y que ejerce una actividad de ayuda familiar en
el sector agrario, al cual siempre ha pertenecido socioeconómica y laboralmente, presenta las máximas posibilidades de estar empleada de forma
irregular. Además, la probabilidad estimada asociada a este u otro perfil de
interés es fácilmente calculable sin más que tener en cuenta que:
po = exp (^30) /{ 1 + exp I j3o) )
( 3.7.)
(donde "j3o" es el parámetro asociado al "término independiente") es la
probabilidad media de referencia, y cualquier otra probabilidad de interés
puede calcularse sin más que sustituir j^^ por j^o + j^^, donde los "j^^" con los
^^I c,l ^^ti I i c ^lc ^^ti !^Il I f l^ ^^FZI-1^ t i ti l 1 II i ti
TABLA 7. EVOLUCION DE ^A PROBABILIDAD DE ESTAR EMPLEAD© DE
FORMA IRREGULAR
^. Características del individuo
Individuo de referencia {')
Individuo de referencia con la característica diferencial de:
■ Categoria socioeconórnica:
Empre9ario, profesional o directivo
Personal intermedio
Agrario
Servicios
■ Edad:
16a19
20 a 24
Probabilidad de
scr írre$ ular
_ __
Diferencia
con respecto a
10,81%
10,81%
,84%
5,26%
15,71%
14,68%
4,970%
-5,55%
-f-4,90%
-f-3,87%
48,25%
25,78%
9,88%
+ 14,97%
-0,93%
26,11%
+15,30%
11,81%
11,92%
11,50%
-}-1,00%
-}-1,11%
-}-0,69%
9,03%
9,71%
I0,99%a
-1,78%
-1,10%
-}-0,18%
I2,23%
-}-1,42%
7,80%
-3,01%
11,30%
-}-0,49%
16,11%
+5,30%
14,93%
+4,12%
Construcción
15,71%
^-4,90%
■ Situación profesional:
Ayuda familiaz
CuenGa propia
68,35%
29, 32%
+57,54°l0
SS y má^
■ Sexo:
Mujer
■ Estado civil:
Soltero
Separado
Viudo
• Nivel de estudioe:
Prirnarios
Secundarios
Superiores
■ Sector en el que presta su actividad:
Agricultura
Industria
Construcción
■ Sector en el que desempeñó el
último empleo:
Agricultura
Industria
-^-37,44%
-^ 18,52%
(') Característ^cas del ^nd^v^duo de reterenc^a: Categoría socioeconóm^ca: Resto de no agrar^os; Edad: 25-54; Varón; Casado;
Sin estudios, Sector en el que presta su acttv^dad^
Serv^c^os; Sector en el que desempeñcí el últ^mo empfeo Servicios;
Situación profesional: Asalariado.
FUENTE^ Secretaria de Estado de Economía (1988 ^ . Análisis de las cond^c^ones de v^da y trabalo en España.
z„
f ^+1 \1)Itill^ \ f tii'\^(^t \
parámetros que de#inen cada perfil concreto; por ejemplo, si se quiere
conocer la probabilidad media de que una mujer esté empleada de forma
irregular bastará sustituir j^n en ( 3.7.) por ^^o + Jj, siendo ^ el parámetro
asociado a la categoría " mujer" de la variable explicativa cualitativa "sexo"'.
Nótese, por úitimo, que la información suministrada por 1as Tablas 6. y 7.
no puede extraerse directamente de una tabla estadística usual. En primer
lugar, porque no se puede ( y, sobre todo, no se debe) construir una tabla
que cruce simultáneamente iocho! variables explicativas (para poder competir con los datos ofrecidos en la Tabla 7., por ejemplo). Y, en segundo
lugar, porque aunque se construyese una tabla de estas características,
ésta no proporcionaría en ningún caso una visión tan "parsimoniosa"' de la
realidad como la ofrecida por el modelo de regresión.
4.
CONCLUSIONES
A lo largo de la exposición anterior, se han enumerado y ejemplificado
exhaustivamente las principales lirnitaciones de la tabulación clásica como
modo único y exclusivo de presentar los resultados de una encuesta, se
han propuesto dos técnicas multivariantes, Análisis Factorial y Regresión
Logística, como complementos útiles de la misma y se ha hecho especial
hincapié en este últirno método, en el contexto del estudio de una variable
respuesta dicotómica. Las conclusiones obtenidas en este último caso son
válidas, en términos generales, cuando la variable respuesta es cualitativa
pero tiene más de dos categorías ("modelos multilogit"^ o cuando la variable respuesta es continua ("regresión clásica"'Í.
De todos modos, en este artículo no se está sugiriendo que la tabulación
clásica deba ser abandonada por completo (de ningún modo), ni siquiera
que la presentación de los resultados única y exclusivamente por medio de
tablas no esté, en muchos casos, justificada. Sin embargo, aun reconociendo su especial importancia, no basta con cuidar al máximo las etapas de la
encuesta anteriores a su explotación final (es decir, hasta que se dispone
de un fichero de microdatos depurado); resulta igualmente imprescindible
difundir sus resuftados de la forma más completa y útil para los usuarios.
En este contexto, las dos técnicas multivariantes descritas en este artículo
pueden acercarnos algo más a este objetivo, pero, en ningún caso, constituyen por sí solas la solución completa al problema. De hecho, dada la
contir^ua mejora experimentada últimamente en las posibilidades informáticas de muchos usuarios, cualquier política óptima de difusión debería
facilitar al máximo el acceso directo a un registro final de microdatos
^I t^l \^ti I l t\Ic
^`, ♦ II I I I^ ^fli 1\ I f ti 1 I ll i ti
profusamente documentado. De esta manera, cada usuario poclría autosatisfacer sus necesidades particulares de información, sin tener que cursar
peticiones a medida, altamente costosas, al organismo promotor de la
encuesta. En esta nueva situación, e! enfoque exhaustivo dado tradicionalmente a la tabulación debería, en m^achos casos, abandanarse, dotándola
de un carácter más "básico", y complementándola, si es posible, con
estudios más específicos, en los que las técnicas multivariantes aquí citadas resultarían especialmente útiles.
BI BLIOGRAFIA
T. t 1 981 ). "Qualitative Response Models. A Survey". Journal of
Economic Literature, 19, 1483-1 536.
AMEMIYA ,
BENZECRI, J. P. y BEN?ECRI, F. ( 1 980). " Practique
de I'analyse des données:
1 I. Analyse des correspondances"'. Dunod, París.
BENZECRI, J. P. et al. 11980). "L'analyse des données: II. L'analyse des
correspondances". Dunod, París.
COx, D. R. (1 970). "Analysis of Binary Data". Chapman and Hall, Londres.
HARMAN, H. H. (1 976). "Modern Factor Analysis". Chicago Press.
HOLLAND, P. W. y RUBIN, D. B. "Research Designs and Causal Inferences:
On Lord's Paradox". Lecture Notes in Statistics, 38. Springer Verlag,.
N ueva YOrk.
INSTITUTO NACIONAL DE ESTADISTICA
11987 ^ . "Encuesta de Discapacidades,
Deficiencias y M inusvalías".
INSTITUTO RIACIONAL DE ESTADISTICA ( 1 987). "Encuesta de Discapacidades,
Deficiencias y M inusvalías. Un primer comentario de los resultados".
.10^LIFE, I. T. (1 986). "Principal Component Analysis". Springer-Verlag,
Nueva York.
LORD, F. M. (1 967). "A paradox in the interpretation of group comparisons'". Psychological Bulletin, 68, 304-305.
MCCULLAGH, P. y NELDER, J. A. (1 983). "Generalized Linear Models".
Charnpan and Hall, Londres.
D . y TEIJEIRO , E. (1 989). "Las discapacidades de la población española. Un estudio basado en modelos de regresión logística". INE.
PEÑA ,
SECRETARIA DE ESTADO DE ECONOMIA ( 1 98$). "Analisis de las condiciones
de vida y trabajo en España".
f ti f^1,OIti f I( ^1 f tii' ^^Ol >>
SOME USEFUL MULTIVARIANTE TEGHNIQUES TO LAY
OUT TNE RESULTS (JF A SURVEY
SUMMARY
Crosstabulati©n is the most applied method to lay out the
results of a survey. However, it is not without deficiencies and in
this article its main limitations are enumerated. In particular, a
real example of Simpson's Paradox is showed. Morever, two
specific multivariante techniques {Factor Analysis and Logit
Regression) are proposed as useful complements to crosstabulation, in view of the aforesaid limitations.
Key words.^ Crosstabulation. Simpson's paradox. Factor Analysis.
Logit Regression.
AMS classification.^ 62 H 2 5, 62J 9 9, 62 P9 J
Descargar