ESTADISTICA ESPAÑOLA Vol. 33, Núm. 127, 1991, págs. 3^5 a 324 Algunas técnicas multivariantes útiles para la presentación de los resultados ele una encuesta por EDUARDO TEIJEIRO ALFONSIN Jefatura de Area de Métodos de Investigación Instituto Nacional de Estadística RESUMEN EI método más utilizado para presentar los resultados de una investigación estadística es, sin duda, la tabulación. En este artículo, se cornienza enumerando sus principales limitaciones y, en particular, se muestra un ejemplo real del fenómeno conocido como "Paradoja de Simpson". A^ continuación, se prop^onen dos técnicas multivariantes (el Análisis Factorial y la Regresión Logística) como cornplementos útiles a la tabulación, en función de dichas lirnitaciones. EI enfoque del artículo es eminentemente práctico, por !o que en la presentación de ambas técnicas predominan los ejemplos sobre los desarrollos teóricos. f'alab^as clave.^ Tabulación. Paradoja de Simpson. Análisis Factorial. Regresión Logística. Clasificación A MS.^ 6 2 H 2 5, 6 2 J 9 9, 6 2 P 9 9 1. INTRODUCCION En ei contexto de este artículo, se supondrá que del largo proceso asociado a toda encuesta resta tan scílo la última etapa (y una de las más importantes, por cierto}: la presentación de los resultados, que permitirá, a i^1 1(>ftiC li ♦ I til' ♦ \tlt ♦ su vez, la extracción de las conclusiones finales de la investigación en c u rso. Llegado este punto, la sofución más universalmente aplicada consiste en generar una serie de tablas estadísticas, cuya estructura específica dependerá del tipo de variables (cuantitativas, ordinaies, categóricas, etc.} estudiadas, y que, sin más preámbulo, suelen servir de base inmediata para extraer conclusiones. Lógicamente, esta manera de proceder presenta ciertas ventajas sobre otras alternativas y, en especial, sobre todas aquéllas que exigen una mayor elaboración de los datos individuales de partida (o "microdatos"}. Efectivamente, la tabulación posee, cuando menos, dos atractivos indudables: su rapidez de obtención y su facilidad de lectura o interpretación. A pesar de estas importantes ventajas y dependiendo de los objetivos del estudio, la tabulación puede dejar de ser la forma óptima de presentar los resultados de una encuesta, viéndose superada por otros métodos multivariantes más sofisticados, como las dos que constituyen el tema principal de este artículo: las técnicas factoriales y la regresión logística. Sin embargo, antes de pasar a describir brevemente ambos métodos en la sección 3(poniendo mayor enfásis en la regresión logística, dada su menor popularidad), se empieza enumerando en ta sección 2 las principales deficiencias de Ia tabulación mostrando, en particular, un ejemplo real del fenómeno conocido como "Paradoja de Simpson". En general, el enfoque dada al artículo es eminentemente práctico y descriptivo, por lo que, en la sección 3, se ha eludido el desarrollo teórico detallado de ambas técnicas (citando, eso sí, las referencias bibliográficas fundamentales}, a cambio de aumentar el número de ejemplos ilustrativos. Por ^ ltimo, en la sección 4, se recogen algunas reflexiones sobre la utilidad de estos métodos en el ámbito general del diseño de una política de difusión de resultados. 2. PRINCIPALES LIMITACIONES DE LA TABULACION CLASICA 2.1 La " Paradoja de Simpson": un ejemplo extremo de los peligros de una estructura tabular inadecuada Consider-emos el siguiente ejemplo. Supongamos que disponemos de datos sobre los fallecimientos acaecidos durante cierto periodo y la causa que los provocó y que se pretende mostrar la relación existente entre el sexo de la persona y la propensión a fallecer por determinadas causas (por ejemplo, las englobadas como "Enfermedades del aparato circulatorio""}. La ^I c^I t^ti I I^ tilc ^ti tit^ I I I^ ♦ Fll \ ♦ 1 I ti ^ I II I^ Z117 soluciór^ "trivial" a este problerna vendría dada por la Tabla 1, donde figuran, para cada sexo, !as tasas de mortalidad por 100.aoo habitantes según la causa del fallecimiento. TABLA 1. TASAS DE MORTALIDAD SEGUN LA CAUSA Y EL SEXO^, POR 100.000 HABITANTES TODAS LAS CAUSAS ENFERMEDADES INFECCIOSAS Y PARASITARIAS T 770.99 V 82 fi.49 M 71 7.50 T 10.50 V 12.73 M s.3s TUMORES T 1 55.70 V 1 84.87 M 12 7.58 ENFERMEDADES CIRCULATORIAS T 353.36 V 339.50 M 366.73 RESTO DE CAUSAS T 251 .43 v 289.39 M 214.83 FUENTE: INE, Movimiento Natural de la Población. Año 1980. Defunciones según la causa de muerte. A partir de los datos de esta Tabla, se puede sacar la conclusión de que las mujeres corren mayor peligro de morir a causa de una enfermedad circulatoria que los hombres, siendo la diferencia, además, bastante notable (casi un 1 0%). Este resultado choca frontalmente con el conocimiento médico actual, que pronostica un mayor riesgo de contraer enfermedades circulatorias, en general, a los hombres. Sin embargo, la teoría médica está en lo cierto (o, al menos, la Tabla 1 no puede considerarse su refutacióny: basta con desagregar las tasas de dicha tabla por grupos de edad, dando lugar a la Tabla 2, para comprobar que, para cada edad fija, los hombres afrontan un mayor riesg0 que las mujeres (tal y como aseguran los médicos). F tiT ^^[)ftiT It ^^ F til'1\t)l •^ TABLA 2. TASAS DE MORTALIDr4D POR CAUSA "ENFERMEDADES CIRCULATORIAS", SEGUIV EL SEXO Y LA EDAD, POR 100.000 NABITANTES _ '\ ANOS SEXO VARONES MUJERES 353.36 339.50 366.73 61.1 4.0 65.$ 4.5 2.3 56.0 3.4 2.7 2.6 TOTAL C U M PLI DOS TO DAS LAS E DA D ES Menores de 1 año De 1 a 4 años De5a9años De 10 a 14 años De 1 5 a 19 años De 20 a 24 años De 25 a 29 años De 30 a 34 a ños De 35 a 39 años De 40 a 44 años De 45 a 49 años De 50 a 54 años De 55 a 59 años De 60 a 64 a ñ os De65a69años De 70 a 74 años De75a79años De 80 a 84 a ños De 85 y más años 2.5 3.5 4.8 9.2 1 3.1 1 7.6 2 8.4 53.9 85.6 1 56.6 267.s 450.9 81 7.3 1 563.1 3034.7 5720.4 11451.7 4.3 6.2 12.1 17.1 2 3.9 39.0 75.7 120.2 22 5.7 386.7 63 5.9 1091.4 1969.9 3 604.0 61 7 6.2 1 1 523.4 3.2 6.3 9.0 1 1.3 1 7.8 32.6 51.3 90.8 1 57.7 299.4 605.0 12 60.4 2669.9 5463.2 1 141 9.2 FUENTE: INE, Movimiento Natural de la Población. Año 1980. Defunciones según la causa de muerte. Nos encontrarnos, por tanto, ante un ejemplo (1 ) del fenómeno conocido como. "Paradoja de Simpson" según el cual las tasas específicas según cierta variable (edad) pueden ser todas ellas (2) mayores er^ un colectivo (varones) que en otro (mujeres) y, a pesar de eso, las tasas brutas presentan la relación opuesta {366,7 para las mujeres frente a 339,5 para los hombres, según se deduce de la Tabla 1). (1 ) No artificial, además, ya que los datos están sacados de la Estadística del Movimiento Natural de Ia Población, que elabora el Instituto Nacional de Estadística. (2 ) En realidad, existe una tasa específica (1a del grupo de edad de 5 a 9 años) que se sale de ia tónica general, pero, dada su escasa importancia numérica, no deja de constituir una anécdota que viene a confirmar el carácter "'vivo" del ejemplo mostrado. ^I (^t ^^^; 1 k c^t^ ^^, 11t I t ^^ ^t.t ^^ 1 t^ t t il t ti Por tanto, si ingenuarnente nos hubiéramos conformado con !a imagen mostrada por la primera tabla, nuestras conclusianes hubieran podido ser totalmente erróneas, no ya en la magnitud de la sabremortalidad de un sexo respecto al otro, sino, incluso, en el signo de dicha sobremortalidad. La justificación teórica de este fenómeno es sencilla y breve. Consideremos una variable categórica J con j rúbricas o categorías diferentes y sean: P; : total poblacianal que presenta la rúbrica i-ésima, i=1 ... j. ^ P - ^ p' ; población total W; = P;/P : peso o ponderación del grupa í-ésimo, i= , : tasa " específica" del grupo ^-esrmo, ^=1 ... / Dada esta notación, es inmediato comprobar que tB se puede escribir como: te = £^ w; • es decir, una tasa bruta se puede escribir siempre como media ponderada de un conjunta de tasas específicas según determinada variable. Consideremos ahora dos subpoblacianes distintas {hombres y rnujeres, dos provincias, dos países, etc.), y utilicemos los superíndices 1 y 2 para diferenciarlas en la notación anterior; entonces, tendremos que: f ^ ;-r w^r , • t', ^ t,BZ _ ^ w 2 . t^2 La "Paradoja de Sirnpson" consistiría, dada esta definición, que siendo las tasas específicas de una subpoblación siempre mayores que las correspondientes a la otra suppoblación (por ejemplo, t,' > t?, para cualquier rúbrica i^, sin embargo, las tasas brutas presentan la relación opuesta (es decir, t^ ^ t^^. De las expresiones de t^ y t^ cor^o su ma de los valores w;• t, correspondientes, se deduce que la explicación de este fenómena, aparentemente imposible, viene dada por la influencia de los pesos w,, que pueden presentar una estructura muy diferente en las dos subpoblaciones. ^ IO f 5T -^l)Iti i l( ^ f ti{' ^tc)I 1 La impartancia práctica de esta paradoja radica en su posible aparición en los carnpos de investigación rnás diversos. Además, aunque la exposición ha sido hecha en términos de tasas, el concepto de "Paradoja de Sirnpson" puede ser fácilmente generalizado a otros contextos. Por ejemplo, en !a técnica estadística conocida coma "Análisis de la Covarianza", un fenómeno simílar es denominado "Paradoja de Lord`" (por ejemplo, Lord (1 967) o Holland y Rubin (19$6) ). Otro caso de especial relevancia práctica donde este fenómeno puede dificultar la interpretación es la comparación de los valores medios de una variable continua (por ejemplo, el gasto de los hogares en determinados bienes o servicios) en subpoblaciones distintas Idefinidas a partir de variables categóricas como el tipo de municipio, la provincia, la composición del hogar, etc.), que también suele aparecer con frecuencia en estudios de la más diversa índole. 2.2 La naturaleza eminentemente "descriptiva" de la tabulación EI fenómeno comentado en el punto anterior no deja de ser un caso extremo que, en estado "químicamente puro", es raro de observar en la práctica. No obstante, sirve para dar una idea de hasta qué punto la interpretación de una tabla estadística puede resultar tan compleja como para impedir la extracción de conclusiones válidas. En la Tabla 3., se presenta un caso en que, sin Ilegar a darse la Paradoja, una observación ingenua de los datos ofrecidos podría crear una imagen totalmente distorsionada ( en este caso, de la magnitud real de las desigualdades en en estado de salud dependiendo de factores socioculturalesi. Efectivamente, en dicha Tabla se observa que la proporción de personas discapaces en los hogares cuya persona principal es analfabeta es más de icinco! veces superior a la de los hogares con persona principal licenciada. En cambio, la construcción de un modelo de regresión logística (técnica multivariante que se explica en el punto 3.) que intentaba explicar las varia^iones de la probabilidad de ser discapaz en función dE factores geográficos, demográficos y socioeconómicos, dernostró que, una vez descontado el efecto de las otras variables (principalmente, de la edad), la desigualdad irnÑUtabI ^, rnás o menos directamentE, al nivel educativo de la persona no sobrepasa el 100 %( frente al 400 % deducido de la Tabla 3.). -^L(^l'^•^^ I f('`I('-1ti ^1l l T l^`•^RI Z\T f 5 l T Il f^ ill TABLA 3. PERSONAS CON DISCAPACIDADES POR 100.000 PERSONAS DE CADA GRUPO DE NIVEL DE ESTUDIOS DISCAPACiDADES TOTA L NUMEHO TOTAL Ver Oir Hablar PERSONAS T a T A L . . . . . . . . . . . . . . . . . . .38.341.1 30 Otra de Cu^dado comuni- personal Andar cac^ón 14.979 2.132 2.378 507 574 1.149 2.237 ..... 2.329.74a 30 731 5.783 4.762 1.181 i.533 2.830 4.761 Sin estudios ...............12 1 69.1 5Q 20 837 3 010 3.204 643 741 1.664 3.21 5 Enseñanza de 1.e' grado .. .. 14 365 230 1 2 398 1 567 1.989 438 491 843 1.830 Enseñanza 2.° gr. 1.ef ciclo .. 3 367.1 30 8.440 1 035 1.437 287 21 1 594 1.1 59 1 441.513 7 41 3 1 125 1.372 266 285 548 979 i.s66 978 6 366 871 1.240 303 233 430 834 20.363 8 948 476 2 578 - 1 52 629 2.72 1 NIVEL OE ESTUDIOS ALGANZADOS No sabe leer ni escribir Enseñanza 3.ef gr 1 e` CÍCIO .. Enseñanza 3.er gr. 2-3 ciclo . NO consta ............ ..... Fuente: INE. Encuesta de D^scapac^dades, Def^c^enc^as y M^nusvalías (1987). Por tant^, la idea básica que hay que retener, con vistas a una correcta interpretación de las tablas estadísticas, es el carácter "bruto'" ten contraposición a"neto'" o'"estandarizado"") de su información con respecto a las variables relevantes que no hayan sido introducidas en la tabla. Lógicamente, esto podría solucionarse, en principio, añadiendo más dimensiones a la tabla ^como se hizo al pasar de la Tabla 1 a la 2), pero esto nos 1levaría, en muchos casos, a la limitación tratada en el punto siguiente. 2.3 La imposibilidad de considerar simultáneamente un núrnero elevado de variables Con el ánimo de evitar las complicaciones descritas en los dos puntos anteriores, a menudo se siente la tentación de diseñar tablas donde se cruzan simultáneamente un gran númera de variables. Esta solución no es muy recomendable, debido a muy diversos motivos. En primer lugar, hay que considerar el soparte bidimensional (a la sumo, tridimensional) de las tablas y, en cualquier caso, la incapacidad humana para "ver" en cuatro o más dimensiones. Por supuesto, siempre es posible transformar una tabla de cualquier dimensión en una sucesión de tablas bidimensionales, pero en cualquier caso la lectura y manipulación del canjunto de subtablas resultante se torna sumamente engorrosa e incómoda. P l^ 1\ f>Iti 1 I^ \ t ti!' \^^ ^) \ Además, existe una limitación mucho más grave aún, que aconseja no diseñar tablas con un número excesivo de variables: la creciente aparición de celdillas vacías y, en general, la paulatina disminución del tamaño muestral de cada und de las celdillas, con la consig^^iente pérdida de precisión en las estimaciones, a medida que la sucesiva introducción de variables las va haciend0 multiplicarse en número. Por tanto, cuando la naturaleza del problema exige 1a consideración simultánea de un número elevado de variables, es necesario recurrir a técnicas multivariantes específicas que usan la información disponible de manera mucho más eficiente. 2.4. l.a dificultad para obtener visiones globales o esquemáticas del fenórneno estudiado Cuando el núrnero de categorías de las variables que forman una tabla es muy elevado, la "visión de conjunto" del fenómeno puede resultar muy complicada, cuando no inabordable. Esto es perfectamente lógico, sobre todo si se tiene en cuenta que el objetivo esencial de una tabla es aportar información fácilmente legible al nive! de desagregación elegido {en muchos casos, el máximo que el tamaño muestral de la encuesta permital, por lo que, en general, la obtención de una visión esquemática no constituye su finalidad prioritaria (más bien, todo lo contrario). Por tanto, siempre que interese conseguir una imagen más '"parsimoniosa" de la realidad, será aconsejable aplicar la técnica multivariante ad^ecuada para este fin, conocida, en términos genéricos, como "Análisis Factorial", y que se describe brevemente en la siguiente sección. 3. ALGUNOS METODOS MULTIVARIANTES ALTERNATIVOS A LA TABULACI©N Dadas las limitaciones que, según acabamos de ver, presenta la tabulación clásica, tiene sentido buscar métodos complementarios que permitan corregir o, al menos aliviar, dichas deficiencias. De entre las muchas alternativas que se podrían proponer, en este artículo se han elegido dos radicalmente disti^^tas: las técnicas factoriales y 1a regresión logística. Por supuesto, existen otros muchos métodos multivariantes capaces de enriquecer la visión suministrada por la tabulación; por ejemplo, cuand0 la variable de interés es continua, la regresión "clásica" cons*.ituye un instrumento "estandarizador" muy potente, análogo a la regresión logística en el caso cualitativo. No obstante, en este artículo se ha optado por poner ^ I(^ 1 ti 1 ti f E(^ I( ^^ ^ t l l ^ I ^^ F21 ^^ i f^^ t 1 I E I^ ^ 1^ especial énfasis en este último tipo de regresión, valorando, por un lado, su vasto campo de aplicación (en el terreno de los estudios sociodemográficos muy particularmente) y, por otro, su relativo desconocimiento si la comparamos con otras técnicas de regresión más populares. 3.1 Técnicas factoriales En realidad existen varios métodos "factoriales" que se diferencian sobre todo, aunque no únicamente, por la idoneidad de cada uno de ellos para determinado tipo de tabla estadística (dependiendo de la clase de variables que la conforman); así, cabe distinguir entre: a) Análisis de Componentes Principales. b) Análisis Factorial (propiamente dicho). c) Análisis Factorial de Correspondencias (o de Correspondencias MúltiP les ) A pesar de que cada una de estas tres técnicas presentan ciertas peculiaridades que la distingue del resto, todas ellas persiguen un objetivo común: resumir la información contenida en el conjunto de variables originales mediante la construcción de unas nuevas variables ("factores" o""componentes""), mucho menores en número, que permiten una visión mucho más simplificada de la realidad objeto de estudio. Si se desea conocer en profundidad el desarrollo teórico y las posibilidades analíticas de cada una de estas técnicas, lo mejor es acudir a referencias clásicas como son, respectivamente, Jolliffe (1986), Harman (1976) y Benzecri (1 980). En este artículo, nos conformaremos con mostrar gráficamente las ventajas e inconvenientes de la tabulación clásica con respecto a estos métodos, eligiendo una misma información de partida (personas deficientes según el tipo de deficiencia y la provincia de residencia) y presentándola: a) En forma tabular (Tabla 4.) b) En forma gráfica, después de haber aplicado un Análisis Factorial a dicha Tabla (Gráfico 1.) De la comparación de ambos medios áe representación, se deduce que, frente al mayor grado de detalle que proporciona la tabla, el gráfico contrapone una mayor simplicidad y, por tanto, una mayor capacidad de síntesis. Por tanto, en la mayoría de los casos prácticos, estas dos alternativas de presentar los resultados se complementan de forma muy satisfactoria. I ti I^ 1)!ti f l( 1 1 til' 1 O( ^1 1 Z^ = u` L± W W 2_ ^ Z W ó^^$^^^^^^^^^^á^ ^á^^^^^^^^^^ ^^^^^^ ^^^^ó^ ^ . . . 01 N^- t0 v•- ^I +f M O 4L1 ^ O 6A f^ ^ O^^ . . . l^1 '^- ^t r O O r 1D O O r- frt M N 1^ • fr1 M O IA l'^f f^f o? `^ P'3 ^ ^ G{t7 b 8 ^ N/^ ^ N ^ 8 8 ÑQ f`^'l Y^ ~ ap ^ Ñ O 1!t Ñ 10 O^!f ^I 8p O 1 ^Q ^ O1 '1 N «ff11 ^ W ^ C Ñ 1^ 0 OD ^D I+f O Ir . O N O ^ N ^+y CD ^ p N p ^ ff^ x O f^ ^O N t0 f^. O ^^1 ^ Ó Ó Ó C7 C^ C^ C]i .^ Ó ^ Ó C! Ó ^^ Ó Ó Ó ^ •- •- 1^ Ó Ó Ó t+1 .-^ C^ ^•= .= Ó C1 O Ó O Ó Ó C^ O < ^^ t ^ U t^ ^^ hp 1! l^ h ^ f^ ^ r^- ^ v n N N ♦ •^ tp ^p ^v P. I!1 I^. Q^ O 1!1 N OD p ^^' !+^ ^ C'f ^1 N!'7 N ♦ l'1 N N f'? 1'7 fV N+"1 VI f'^ h^ 10 Ñ tt^ ^^^jjj •' 01 n O1 n e'1 Qf Q N f'^ N u0 QO • N N ^ M+- c^i v^- f'V N+- N r N M Ñ ^I N 1C/ M l`7 1 Ñ tV Cf 1A ~ ^ +^ ^O •.^ry N f^ ñ ^ tD iV ñ G O^^ Q O O O O O O O O O O O O O O N O O O O O O ^ O O ^ 00 ^ ^ A O '^ N u^ CTf ^D O N ^ ^ W ^ W N Q'f Q1 W ih t0 ^C W 1^ M t^ 01 n t'1 M tL! ^ Qf ñ tV O^ n GD ^ O ^^ ^ uD ^ f'^1 ^^ f^ f'f n N t"! ^- N tD C'^ v ^^`^1 ^t C'^) ^ O ^ ['7 Qf !"f N t0 n CO CD N^!f ^L1 1•^ C^f ^O _ O ^ o_D ^^ ^ J^ ^ ^O Ñ^^l1 ^ tÓ ^^ d f'^'1 Ñ CD CD v ^n n °i0D N ó ^i ` ^ t"1 N v ^ ^ ^ ^ hl n ^ Vf ¢ yy Z +^ M^ O O^ N N^ O^^^ N Ó t"1 ^- i ^ a0 ^^^^ m ^ ^ l'f p O (^rl. í^ Ñ M 1 J? ^ OD t0 N^D N ^ ^- ^- `ñm`^iX^ í h e^s O^ ,̀^^ Naoc^ O r1 n^ N v O N^ O N r- f•^ *- ♦ GO S ^ ^ ^t1 `ó^°^^^ cnv, ^^ •- + N r ♦ ^^^ + ^ O^ • f^ r^ 0 ^1 ^ Q n.^áñ °ó3 ^`° N N N ♦ O N p d^^^ CD Q í^ Q ^ O CS N ^ ^A Q.- N ^ s ^ ^^ t A 00 tp l^ •- O v G1 ^ ^^-- O^- N O O^^ 0 O r- ^- O N O O O^ - r- Ci r^- p r - ^ - tV r - r- ^- r- N O •- ^- ^-' ^ N^- ^ ^l1 ^ d^{G ^ t0 P1 ^AQ ef 1p O CO d1r^ hO Q f'^ N ^D N O Ofr 1!'1 N r- C7 _ ^ +n OCS N Q pp N 0 P^ 00 Gt1 N d.^ f^ O^ Q] ^ N+ ^t ^ ^ A ^ ff ^ - ^ ^D r! n R^ !'9 t'7 V+n ^f ^ O O O N^ O N^ t0 Iff ^p O N U4 ^ GO 01 N ^ N Qf M ^ (1 f' } O n f `' ) Q N N N M^+I f"') d N!"1 f"S OD 1"f N ^^ tl 01 Ñ tQD ^ t^y Ñ ^ f^^ N P^ N^A ^,r. ^ Ñ ^•. ( ''l Q C7 r f^ 1'^ v fh ^J f"1 M M ^ tn ^ m N ^ IA f'^ ^ ^L1 1D 00 ^^ Ñ^ Q tfi tÓ Ñ 01 r^ v CD f^ ab r- 1Á iñ t0 r atD I D^ CD ^ V^^1 ^f'1 ^^^ ^t ^ n ^li t^ ^ 1D u^ ♦ oD v frf tÓ P") ^f ( Z? N ^t1 Q '+ OT t0 N$ OD ty ^ ñ G N O'^ l*f ^ r1 C1 N ^ ^ 1,7 ^ ^ (rf ^ ^ QMf CD {^ g vÑ M w^n°c^ r^ ^+ °a$^ [^ ``u^r^ oD Nd^i Os a) ^D n 1^ _ < 1C Vf ^^ 1'` iA M ^ ^ ^ ^ ^ ^ ^ ^ aD ^^^ ♦ O a1 {^^^ ^ tD ^ ^ Ñ ^ 1Í1 ^ O C? M^f N ^ ^ N ^ ^ ^ W N ^ O Q O O O O r- d G O p O ^ k 1/1 ~^ Z^ ^ ♦ ^^^^ó^^^^^^^g^^m ^^^^^^^^^^m^_ ^^á°^^ ^^^_ ^^^ ^ ^^y ^!'f N h^^1 f3 ^_D Of ^l'1 f''f ^•.. . ` 1 C! 01 ^ l"f ^ f^ U1 O U ^ v N n CD W d M ^ fr1 P^ Q1^/ 1A f^ '+ f^ _N fN^^^O,' ^ M f'^f P ^ ^ N 1L1 G^ ^y O D ^ t! O Q Q f '1 N^O l`1 v C'é v M^^ ^ ^ ^ 0 ¢ a < w ac ^ •- vf ^`f ^ tp i 41 00 o _ ^j ^^ N 4 fh a ^^ ^^ Ñ Q1 O('^ In OG r^^ ^ C) ^ tC ^ ^ r- f"1 t^ N 00 Os h v P'1 K) m tG . t'^f Nf 1p ^f! ` (V s^ r ^- < Ó ^A ^G f`V t'7 r tl Ó Chn Cp tLf t•'1 v N pp p^ O^A N 07 Ci d O^ ^ r r C'f I^ ^- ^!1 O ^D ^`1 t"] •p i!1 ^ N n f'^') O Q O tG Q `O 10 Ol Ol ^ + + ^t GD N ^ I^ ^^ C' V P'7 ^ rn fy un •Q ^1ry C f^f"S Of h W ^ tO 1•'t v 01 ^ Crf ^ íyl n ;D 1l1 1t1 ^f 00 Q^ t"'^ .f^ 0 f'1 M N N^^' V .- N N ^A QJ N p P^ ^ .- ^t1 T 00 ^- f''f l^] v O N N n ^- v fh N 00 N^ V K7 ^A n^^A O C^ .- ^- tD N O ^ r .Q.- M N O 1^1 O N N f^ Ol OD O tñ O^ t0 h r ¢ N f"') O M f'7 f7D 04 V^^L1 o N[p")^ Ql ^^p O ^n h fr1 0^ tD ^ N_ ^ 47 v N fly '^ I^ ÓW W Ñ tD N d i'7 01 1`^ P^ 10 ^ N^ •- O ^- ^ G Of ^ N ^ ^f1 1A ^V^ f`^ tÓ ^f Ó r• r r r r .- v Q1 r^ ^y c^ ^p O1 N tfl ^ M Qi ^ 11S c'r1 ^ GD ^ m ^ 1^ I^ O) Ó N r ^ r (V ^ r F 01 f^ p p {_n i_D l1i lptp1 Cq] C_D N 00 ^- M!Ll Ol ^A b e'^1 C'1 i0 Ch ^- r ^- e+ r C1D N N O f^1 N CD O Q (°1 ^ N ^ f^ 01 tp ll^ W n tf1 ^Tf O^ Of iD f!1 ^ P C^ O O i^ N N dU Q r OD N ^^ ^D OD 1l') P'1 N r- .- O cV a7 .- GD ^fi f^i V O Oci crf ^1'1 ^I'i ^[1 ^l'1 O t[^ ^^viy ^ ('n' Q ^ t ,^j O O^A NI ^ ^( 1 ^ pp Ñ Ñ ^ V ^ ♦ Cf ^- ^- N Q^- Ó ^ lrI fV Ó ^ tt1 ^ r n ^ r- Ó r- nl N N ^^^^ ^ ^ r- ^- O N ^*- + ^ O lfl t7 r N!D ^. r v tl^(T ^ m r m^! N 1^ N 1T CC ^ Ql Ol W ^ C7 z 1'^ Ñ^ Ó1 Ñ W Of ^ ^ Q, d1 ^t ^f1 1^ ^ ^ M d^ f ^ R^O [+l G f ti O1 eT ^ ia C1 LA +u J Ó N r- N+^= N^V r^- Ó N M tV Ñ ^ ^ S Ñ ^^O f`i ^ t0 ^^^ 1!1 O O 00 ^- .- m t ^'f tl n t0 d I^ ^ ^ ^ N^ Of ^('^ O ^ GD d ñ!+f ^ N^ f^ ^ f^ ^1 G> CO r- ^n .= CD CD r.-^ r r t^ rl l^ r.^ ^f C) f^ IV n vi Q^ tD Ó .^ ^•r r- OD Oi 01 f"1 C.^ I!`'f r r^r ^- n1 OÓ 01 f^ ^ r r r ^ O Ó C'i ^-- Ó P^ P^ 00 tD un f i r^-- r r r ^ p ñ Q ^ /'f ('^') ONi st N O O W t^0 Cf Ó ñ 01 ^ v Q M O ífi ^ dD 8 Q íNA tD OQi t^0 V 00 ^ O fa ^ O! ^ G^D ^ ? ó °^iinr.^^^ ^ r- ^ `Óri n V v±n^ `° h, ^ ° OOD^oii ó ^áo$r^áo^oó©ñ ° c^í°vó °á^ic^ ^ b^-' ^ t'7 CO n n N^ N r- 1C^ ^t Q} •- tn •- •- •- • •-- ^ ^ ^ . - r ^-• ^ N O n Q1 N 0 O d O'J V N n r- ^r - r r (y r- r N^ n^ n f'^ ^- r ^^r- r- n n, á^cvócv ^ N tV ^A n N N r r^- • - - • - •- ^- c^c ^ () _ ^ fy^^ ^j p ^ N ^ N í^ ri M ñ O íñ ^j p n^ ^^^j N ^ ^ O C") t0 f`') ^ O1 W Of n n N • d t'1 v^ as ^ í^0 [1D n ^y íN p^ íN O N ^ rn M -i h ó^ p^ i n ^^ V N Cl tf'I N f'^ Itl 1^ 00 ^ N ao ooO^ 00 V c v í^ ^ rn o ^ nO ' ^ N ^ C^ l^ N r-• N O O c'f ^ O a O O.- p c0 N ^t N C') ^- O N O p.- r N .- .- ^ O.- Ó ^- N tD r- O N ^ ^` t rM - G I"M^ t+^ N ON _1 p^ ^ 00 C _ d0 OMS ('^} (gj ^7 ^ fQ1 Q^1 Ch ^D Q W^ l'd•1 M 1/'1 O1 tl0 f'M^ Ó Ñ t^0 Op0 Ñ 01 cpD t0 M Ctl^] Z^ tl^D O1 h• G1 M^t C3 tG ^- N N N t0 ^ V ^ ^!'1 N N 4 1+ ^ t^6 ^ ^ ('^> pq _ N pp n ^$ 111^^^r M t0 v Ñ d^O ^ pg f V N C7 r-^ v C7 v CS N N N C'^ CV r CnD I W CS j ^ W p Ó 1^ a0 M^ r^ Ó Ch0 N c^ M rn t^ c ^^ Q ^ n Ol n 41 Q^ e"p^ ^ ^ 4 r^ N^ CV ^ ^ 00 ^_ n N^+ f•M^ p^ 1''M'1 /. CO. _S t8 ^ Q^ pp ^ O (^ ^^^ O Ñ^D C^ 1n ^ U^0 C^f 00 C7 C'1 tn N^1 ^ 1[^ W ^ r N N r r N ^ Cp Q r 2 Z ^^ Q O M ^%3 _C'1 ^^1 m N o(` é^ f^ q^^ d1 n h QO d ' n i ^ N ^ n ^n ^+ ^D 1[S ^ ('^ M n V^^ d N W 01 ty1 N V 1A 1D P^ f^ In fA f`^ 10 N f'7 4 rf f^ t'h ^ u^ lY ^ M ^ l!'1 ^ O^ N 8 ^n t0 R 00 l' 7 (7f ^07 ^ l + tT1 ^ ^ - Ch OWD OI P+ d O If) r- In !d ID ^Ó f'7 !^ ^` ^ •- d G P ^ 1A Af N N O v n Ill ^tt ^ N 01 N r^p ^A ^O ^ •^D ^ ^y M N N i0 ^(1 ^ ^[1 + t!S 01 ^p ^ ^ q ^ Q^ ^ v^ O V f'N^! 01 ^ G t0 M Ci t0 t`7 t'7 N ^ ^ U C LsJ W Q q ^^ A ^ --^ Q Q z q ^: u Q^ q aA,i A Z Q^ ^ ^ J N ^^^ E V^^ Q N r0 q• q ^ q ..J ... ^ ^ q A/ J U a G ,^ J^ O q 0 J ^^ ° ^ É b•ó ^ ^ ,^ ^•^ p a ^ 2 Á Q Ñ ^ Ñ ^^^ z z p^ • ó ^^^.s ^° C v^i Z Á v^ Á ^ v^i ^ ú ó ^ L ^ V q CL N Q rp ^0 a^ Q Q ^ ^ v r0 rH a1 O ro C •^O •Ó e 7 q y ^ q Q O 1^ ; 7 7 p Q Q ^0 V•a1 ^O a Q CJ t^ la 2"1 .^ N Q= F^ N Q Q¢7 _..J 1^ v<J U Q o^ ^ 0. Vi N N ^ N tJ ..^ Q U Ci U M'- U J ti^ Ci J ^- U ^ z w ^ LL ^^1 t;l ti ^^S T c^^i<^^^^; ^^t i riv.^Ki^^^r^^ I rii F^; . 1 t Z t ^ W J < a^ a^ < 0 . <^ f ^ ^ > ^ 2 . 2 C cg• ^ • R O • C O 3 1 • W f- ^..^^^ O s ?"'^^. 0 h StlI^N31^1^3Q 3a lt^>;i3N3J ^3/^IN ^^^ . O r/ ^l9 cv ( ^ O c^ 1 ^ W ^ ^1. E ^r ^n^^i i^ ^ f ^r^^^c^i ^ No obstante, el inconveniente c^tado en 2.2. (es decir, el carácter bruto, no estandarizado, de la información tabular) no se soiuciona mediante la aplicación de técnicas factoriales; por tanto, cuando se está interesado en estimar la relación neta entre dos variables, es necesario uti^izar otro tipo de método multivariante: el Análisis de Regresión. A continuación, se exponen las principales características y aplicaciones de una de estas técnicas, la Regresión Logística. 3.2 La regresión logística: un caso particular de modelo de respuesta cua I itativa a) Formulación general de !os modelos de respuesta cualitativa En rnuchos casos prácticos, la variable respuesta es dicotómica (por ejemplo, estar o no parado, consumir o no determinado bien, padecer o no determinada enfermedad} o, .en general, cateyórica (elección de una carrera universitaria, tipo de establecimiento donde se compran determinados productos, etc.}. En estas situaciones la regresión "clásica" (que trata de explicar e! nivel de una variable respuesta continua en función de un conjunto de variables explicativas} no es el método más adecuada, ya que sus propiedades óptimas están basadas en unos supuestos que dejan de cumplirse cuando la variable respuesta es cualitativa. La regresión logística constituye uno de los muchos intentos realizados (aunque presenta alguna ventaja sobre los demás} para adaptar la teoría de la regresión a estas nuevas hipótesis de partida. Para mayor claridad de exposici ^ n, supondremos, sin pérdida de generalidad, que la variable respuesta, "y", es dicotómica y, por tanto: 1, si la observación i-ésima presente la característica (por ejemplo, esta r pa rado) 0, en caso contrario Asimismo, definiremos "p;" como la probabilidad de que la observación i-ésima presente la característica en cuestión, es decir: P;^P(Y;=^} Supongamos que también conocemos, para cada observación, los va^ores de un conjunto de variables explicativas, englobadas en un vector X;. EI objetivo de cualquier tipo de regresión cualitativa consiste en medir la variación experimentada por "p;" en función del nivel alcanzado por cada variable explicativa, cuando el valor de los demás factores considerados se mantiene constante. ^ttc^t ti^^ 1tc tiic >ti ti1t l ltti-^Kt^titES t ltttti ^t7 La formulación maternática de cualquier modelo de regresión con respuesta dicotómica se puede expresar como: p; = f (X;,^3) + u; (3.1.) donde "f {X;,^)" es !a parte sistemática del modelo que depende de1 vector X;, y"u;" es la parte aleatoria, que refleja el hecho de que la relación entre "X;" y"p;" nunca es exacta. Por su parte, ^3 es un vector de parámetros desconocidos a estimar que constituye el "output" primario del modelo, ya que cada uno de sus componentes, "^3^", míde el efecto que una variación en el nivel de ia variable explicativa correspondiente, "x'", ejerce sobre e1 valor de !a probabilidad "p". Dependiendo de la forma funcional "f' elegida, obtenemos los distintas tipos de regresión cuafitativa. EI caso más trivial consiste en: f(X r^N) = X i • l-' + xi N 3' + x^N2 +...-1- Xnf^n (3.2.) obteniendo el "modelo probabilístico lineal": x' j3 ^ + X? ^32 + . . . . + x" ^3„ (3.3.) que puede considerarse como la adaptación inmediata del modelo clásico de regresión al contexto cualitativo. No obstante, este modelo presenta varios inconvenientes entre los que cabe destacar, por su evidencia, e! que se deriva del hecho de que "p" es una probabilidad, por lo que su rango de variación debería estar comprendido entre 0 y 1. Entre los distintos modelos propuestos para subsanar este y otros problemas, cabe citar el modelo '"probit" (basado en la función de distribución normal) y el modelo de .. regresión logística" o modelo "logit": p; = 1 / (1 + exp (-X; ' ^3) ) ( 3.4.} o bien: ln(p;/(1-p;))=X;•^3 (3.5.} Este modelo de respuesta cualitativa es, sin duda, el más utilizado, debido, entre otras razones, a la sencillez de su expresián explícita, de fácil manipulación algebraica, lo que supone una cualidad muy interesante a la hora de elegir la presentación de resultados más adecuada (como verernos en el punto siguiente). t ti i \ E)I^ 1 It \ I^!' \\^ 11 ^ Dos de las referencias teóricas más citadas sobre el tema son Cox (1 970} y Amemiya { 1 981 ^. Por su parte, en McCullagh y Nelder (1 983^ se puede obtener un punto de vista más unificador, sobre todo en lo relativo a la estimación de estos modelos. En cuanto a aplicaciones prácticas recientes, se puede citar los estudios basados en la "Encuesta de Condiciones de Vida y de Trabajo" (Secretaria de Estado de Economía (1 988) ) y la "Encuesta de Discapacidades, Deficiencias y Minusvalías" (Peña y Teijeiro (1989^ f; en este último caso, se presta especial atención al estado actual de la teoría en la diagnosis y validación de dichos modelos. b1 La regresián /ogística como elemento eamplementario de la tabulación clásica La Tabla 5. ejemplifica la salida primaria típica de un modelo de regresión logística. TABLA 5. EFECTOS SOBRE LA PROBABiLIDAD DE NO PADECER DEFICIENCIAS EN EDADES ADULTAS NIVEL DE SIGNIF[CACION EFECTrO VARIABLE YACAR PA RAMETRO P X^ TERMINO INDEP. 1 2,33 0,0001 {12514.7) SEXO (EDAD = 1) -I(V} -0.11 0,0002 ([4.0) 1(H) O,l l -!(V} -0,03 0,2836 (1.2) 1(H) --1(V) I(H) -1(V) 0,03 -0,02 0,02 -0,04 0,1924 (1.7) 0,0007 (11.5) 1(H) 0,04 0,93 0,4ó -0,28 -1,1 l -0,4ó O,OOOI 0,0001 0,0001 ( l57l.7) ( 494.2) ( 281.7) 0,0001 ( 562.8) --0,05 0, l3 O,OOS2 0,0001 (7.8) (24.6) 0,0001 0,0001 ( 3SS.3) (22.ó) 0,0001 ( 570.5) 0,0001 (42.7) 0,0001 (32.4) O,OOOt 0,4570 (54.7) (O.ó) SEXO (EDAD = 2} SEXO {EDAD = 3) SEXO ( EDAD = 4) EDAD ESTUDIOS 1(25-34) 2(3 5-44) 3(as-Sa) 4(SS-64) I(Analf.) 2(Prim.) 3(Sccun.} 4(Supcr.) I NGRESOS E.C[YIL COSTA CONAT (TMU N I = 1) CLIMA ( •) MUNIClP10(') 1(bajos) 2(medios) 3(altos) - f(casado) l(soltcro} -I(na mar) 1(mar) -1(poca) 1(mucha) l 2 0,38 -0,31 -O,OÓ 0,37 4,27 -0,27 -0, l 0, l 0,08 --0,08 0,34 0,02 ; 0,1$ O,OW l (45.6) 4 S 6 7 8 1 2 3 4 S 6 7 8 9 0 -0,14 --O,Oó -0,19 -O,1S 0 0,08 -0,04 0,05 ---0,13 -0,04 O,1S 0,04 -0,11 0,9ó l9 0,0001 0,021 l 0,0001 (0.0) (27.9) (S.3) (37.1) 0,79I6 O,OS02 0,689 0,1728 0,0001 O,OS96 0,0001 0,039I (0.07) (3.8) (3.3) (1.9) (! S.0) (3.6) (I9.7) (4.3) FUf NTE INE ^as d+scd^a^id'acles cfe la ^ot^lac^ón est^añola E l y8`.3! ^I^,^ ^^^ ^Ttr^l^ ^^^ til^ I ^^I^^^KI^^^rl^ I ill^^ ^ly EI principal inconveniente de esta Tabla es la difícil interpretación de los valores de los parámetros, que no pueden traducirse directamente en términos de la variación de la probabilidad en estudio. Sin embargo, los resultados de una regresión logística pueden presentarse de formas mucho más intuitivas, y en último caso, útiles, para el usuario (a menudo, no especializado en Estadística). Así, en la Tabla 6. se presenta de una forma alternativa la información contenida en los parámetros del modelo. En efecto, en esta Tabla se recogen: a1 Las categorías extremas de cada variab^e explicativa (la más "favorable" y la más '"desfavorable"). b) EI incremento relativo de probabilidad que una observación experimentaría si pasase de una categoría a la otra, para valores "medios" del resto de las variables explicativas. TABLA 6. INCREMENTOS DE LA PROBABILIDAD DE PADECER ALGUNA DEFICIENCIA EN EDADES ADULTAS CATEGORIA MAS FAVOR.ABLE VARIABLE SEXO (EDAD = 1) SEXO (EDAD = 2) SEXO (EDAD ^ 3) SEXO (EDAD = 4) EDAD ESTUDIOS INGRESOS E.CIVIL MUNICIPIO COSTA CLIMA CONAT (TMUNI = 1) CCAA 1 1 1 1 I 4 3 -1 7 1 1 --1 14 CATEGORIA MAS DESFAVORABLE o p(%^ (mujer) (mujer) (mu jer) (mu jer) (25-34 años) (superiores} (altos) -1 -1 -1 -1 4 1 1 (hombre) (hombre) ( hombre) (hombre) (55-64 años) (analfabetosl (bajos) 23,5 5,8 3,5 6,1 490,3 107,3 80,5 (casado) (capitales) ( litoral) (de montaña) (poca contaminación) (Murcia) 1 S -1 7 1 13 (soltero, etc.) (rnás de 10.000, industria) (interior) (rnediterr. meridional) (mucha contaminación) (Madrid) 61,2 24,8 19,2 59,7 14,0 165,2 FUENTE: INE. Las discapac^dades cie la pok^lación espariola ( 1 9$9 ^ . De esta manera, queda resuelto el problema de que los parámetros del modelo ^3^ no puedan interpretarse directamente en térrninos de la variación en ta probabilidad de presentar la característica en estudio, ""p,"". Además, la obtención, a partir de los parámetros, de ést©s incrementos es inmediata a partir de la sencilla fórmula: d (k-/^ = Pk [ (exp (^.^^) - exp (^^k) ) / eXp (^k) ] [3.6.] E^ I 1f)I^ F I( 1 f ti{'^^\l11 1 siendo: d(k,^1: variación media de la probabilidad de no presentar la característica estudiada al satisfacer la categoría k-ésima en vez de la ^-ésima (la variación en términos de la probabilidad de presentar la característica se deduce de forma análoga) pk: probabilidad observada de aparición de la característica entre las observaciones que satisfacen la categoría k-ésima. j3k,/31: parámetros asociados a sendas categorías. EI desarrollo detallado de esta fórmula y otras relacionadas ( por ejemplo, las que aclaran la interpretación de los parámetros de variables explicativas continuas) puede encontrarse en el citado estudio de Peña y Teijeiro (1989). No obstante, la información aportada por la Tabla 6. puede resultar insuficiente para quien esté interesado no sólo en el cambio experimentado por la probabilidad de presentar la característica dicotómica en estudio, sino también en la magnitud (es decir, el nivel) de dicha probabilidad en función de los vafares de las variables explicativas. Afortunadamente, esta carencia de la Tabfa 6. es fácilmente subsanable con la Tabla 7., donde se presentan las probabilidades estimadas por el modelo logístico a medida que se van cambiando, una a una, las características de un individuo "tipo" tomado como referencia. En concreto, dicha Tabla presenta la probabilidad estimada de estar empleado de forma irregular, a partir de un modelo logístico empleado en el citado estudio sobre la Encuesta de Condiciones de Vida y Trabajo. Una de las conclusiones prácticas más ""espectaculares" que se pueden extraer de esta Tabla es la determinación de los "perfiles típicos" o"retratos robot" de las personas más (o menos) propensas a presentar la característica en cuestión. Así, una mujer de edad comprendida entre los 1 6 y los 19 años, soltera, sin estudios y que ejerce una actividad de ayuda familiar en el sector agrario, al cual siempre ha pertenecido socioeconómica y laboralmente, presenta las máximas posibilidades de estar empleada de forma irregular. Además, la probabilidad estimada asociada a este u otro perfil de interés es fácilmente calculable sin más que tener en cuenta que: po = exp (^30) /{ 1 + exp I j3o) ) ( 3.7.) (donde "j3o" es el parámetro asociado al "término independiente") es la probabilidad media de referencia, y cualquier otra probabilidad de interés puede calcularse sin más que sustituir j^^ por j^o + j^^, donde los "j^^" con los ^^I c,l ^^ti I i c ^lc ^^ti !^Il I f l^ ^^FZI-1^ t i ti l 1 II i ti TABLA 7. EVOLUCION DE ^A PROBABILIDAD DE ESTAR EMPLEAD© DE FORMA IRREGULAR ^. Características del individuo Individuo de referencia {') Individuo de referencia con la característica diferencial de: ■ Categoria socioeconórnica: Empre9ario, profesional o directivo Personal intermedio Agrario Servicios ■ Edad: 16a19 20 a 24 Probabilidad de scr írre$ ular _ __ Diferencia con respecto a 10,81% 10,81% ,84% 5,26% 15,71% 14,68% 4,970% -5,55% -f-4,90% -f-3,87% 48,25% 25,78% 9,88% + 14,97% -0,93% 26,11% +15,30% 11,81% 11,92% 11,50% -}-1,00% -}-1,11% -}-0,69% 9,03% 9,71% I0,99%a -1,78% -1,10% -}-0,18% I2,23% -}-1,42% 7,80% -3,01% 11,30% -}-0,49% 16,11% +5,30% 14,93% +4,12% Construcción 15,71% ^-4,90% ■ Situación profesional: Ayuda familiaz CuenGa propia 68,35% 29, 32% +57,54°l0 SS y má^ ■ Sexo: Mujer ■ Estado civil: Soltero Separado Viudo • Nivel de estudioe: Prirnarios Secundarios Superiores ■ Sector en el que presta su actividad: Agricultura Industria Construcción ■ Sector en el que desempeñó el último empleo: Agricultura Industria -^-37,44% -^ 18,52% (') Característ^cas del ^nd^v^duo de reterenc^a: Categoría socioeconóm^ca: Resto de no agrar^os; Edad: 25-54; Varón; Casado; Sin estudios, Sector en el que presta su acttv^dad^ Serv^c^os; Sector en el que desempeñcí el últ^mo empfeo Servicios; Situación profesional: Asalariado. FUENTE^ Secretaria de Estado de Economía (1988 ^ . Análisis de las cond^c^ones de v^da y trabalo en España. z„ f ^+1 \1)Itill^ \ f tii'\^(^t \ parámetros que de#inen cada perfil concreto; por ejemplo, si se quiere conocer la probabilidad media de que una mujer esté empleada de forma irregular bastará sustituir j^n en ( 3.7.) por ^^o + Jj, siendo ^ el parámetro asociado a la categoría " mujer" de la variable explicativa cualitativa "sexo"'. Nótese, por úitimo, que la información suministrada por 1as Tablas 6. y 7. no puede extraerse directamente de una tabla estadística usual. En primer lugar, porque no se puede ( y, sobre todo, no se debe) construir una tabla que cruce simultáneamente iocho! variables explicativas (para poder competir con los datos ofrecidos en la Tabla 7., por ejemplo). Y, en segundo lugar, porque aunque se construyese una tabla de estas características, ésta no proporcionaría en ningún caso una visión tan "parsimoniosa"' de la realidad como la ofrecida por el modelo de regresión. 4. CONCLUSIONES A lo largo de la exposición anterior, se han enumerado y ejemplificado exhaustivamente las principales lirnitaciones de la tabulación clásica como modo único y exclusivo de presentar los resultados de una encuesta, se han propuesto dos técnicas multivariantes, Análisis Factorial y Regresión Logística, como complementos útiles de la misma y se ha hecho especial hincapié en este últirno método, en el contexto del estudio de una variable respuesta dicotómica. Las conclusiones obtenidas en este último caso son válidas, en términos generales, cuando la variable respuesta es cualitativa pero tiene más de dos categorías ("modelos multilogit"^ o cuando la variable respuesta es continua ("regresión clásica"'Í. De todos modos, en este artículo no se está sugiriendo que la tabulación clásica deba ser abandonada por completo (de ningún modo), ni siquiera que la presentación de los resultados única y exclusivamente por medio de tablas no esté, en muchos casos, justificada. Sin embargo, aun reconociendo su especial importancia, no basta con cuidar al máximo las etapas de la encuesta anteriores a su explotación final (es decir, hasta que se dispone de un fichero de microdatos depurado); resulta igualmente imprescindible difundir sus resuftados de la forma más completa y útil para los usuarios. En este contexto, las dos técnicas multivariantes descritas en este artículo pueden acercarnos algo más a este objetivo, pero, en ningún caso, constituyen por sí solas la solución completa al problema. De hecho, dada la contir^ua mejora experimentada últimamente en las posibilidades informáticas de muchos usuarios, cualquier política óptima de difusión debería facilitar al máximo el acceso directo a un registro final de microdatos ^I t^l \^ti I l t\Ic ^`, ♦ II I I I^ ^fli 1\ I f ti 1 I ll i ti profusamente documentado. De esta manera, cada usuario poclría autosatisfacer sus necesidades particulares de información, sin tener que cursar peticiones a medida, altamente costosas, al organismo promotor de la encuesta. En esta nueva situación, e! enfoque exhaustivo dado tradicionalmente a la tabulación debería, en m^achos casos, abandanarse, dotándola de un carácter más "básico", y complementándola, si es posible, con estudios más específicos, en los que las técnicas multivariantes aquí citadas resultarían especialmente útiles. BI BLIOGRAFIA T. t 1 981 ). "Qualitative Response Models. A Survey". Journal of Economic Literature, 19, 1483-1 536. AMEMIYA , BENZECRI, J. P. y BEN?ECRI, F. ( 1 980). " Practique de I'analyse des données: 1 I. Analyse des correspondances"'. Dunod, París. BENZECRI, J. P. et al. 11980). "L'analyse des données: II. L'analyse des correspondances". Dunod, París. COx, D. R. (1 970). "Analysis of Binary Data". Chapman and Hall, Londres. HARMAN, H. H. (1 976). "Modern Factor Analysis". Chicago Press. HOLLAND, P. W. y RUBIN, D. B. "Research Designs and Causal Inferences: On Lord's Paradox". Lecture Notes in Statistics, 38. Springer Verlag,. N ueva YOrk. INSTITUTO NACIONAL DE ESTADISTICA 11987 ^ . "Encuesta de Discapacidades, Deficiencias y M inusvalías". INSTITUTO RIACIONAL DE ESTADISTICA ( 1 987). "Encuesta de Discapacidades, Deficiencias y M inusvalías. Un primer comentario de los resultados". .10^LIFE, I. T. (1 986). "Principal Component Analysis". Springer-Verlag, Nueva York. LORD, F. M. (1 967). "A paradox in the interpretation of group comparisons'". Psychological Bulletin, 68, 304-305. MCCULLAGH, P. y NELDER, J. A. (1 983). "Generalized Linear Models". Charnpan and Hall, Londres. D . y TEIJEIRO , E. (1 989). "Las discapacidades de la población española. Un estudio basado en modelos de regresión logística". INE. PEÑA , SECRETARIA DE ESTADO DE ECONOMIA ( 1 98$). "Analisis de las condiciones de vida y trabajo en España". f ti f^1,OIti f I( ^1 f tii' ^^Ol >> SOME USEFUL MULTIVARIANTE TEGHNIQUES TO LAY OUT TNE RESULTS (JF A SURVEY SUMMARY Crosstabulati©n is the most applied method to lay out the results of a survey. However, it is not without deficiencies and in this article its main limitations are enumerated. In particular, a real example of Simpson's Paradox is showed. Morever, two specific multivariante techniques {Factor Analysis and Logit Regression) are proposed as useful complements to crosstabulation, in view of the aforesaid limitations. Key words.^ Crosstabulation. Simpson's paradox. Factor Analysis. Logit Regression. AMS classification.^ 62 H 2 5, 62J 9 9, 62 P9 J