C O EJJO NE AN MA N yy M ÓN CIIÓ CC UC DU OD CURSO DE INTRO BÁSIC PSSSS L SSP EL DE OD CO SE N II:: ÓN ESSIIÓ T Cllaassiiffiiccaacciióónn,, Muullttiivvaarriiaannttee.. C Tééccnicas de Análisis M descripción y ddiissppoonniibbiilliiddaadd eenn SSPPSSSS ESQUEMA DE OBTENCIÓN Y ANÁLISIS DE DATOS DETERMINACIÓN DEL PROBLEMA F.SECUNDARIAS - SOPORTE IMPRESO - SOPORTE MAGNÉTICO OBTENCIÓN DE INFORMACIÓN F.PRIMARIAS - UNIVERSO - CUESTIONARIO - MUESTREO - PRETEST Y TRABAJO DE CAMPO - CONTROL - CODIFICACIÓN Y TABULACIÓN ANÁLISIS SIMPLE - ESTADÍSTICA DESCRIPTIVA - ANÁLISIS DE CORRELACIÓN: Numérica, ordinal o categórica - NÚMEROS ÍNDICES MULTIVARIANTE - GRÁFICOS Y TABLAS - ANÁLISIS DE DEPENDENCIA: Anova, Ancova, Manova y Mancova. Análisis de Regresión. Análisis Discriminante. Correlación Canóvnica - ANÁLISIS DE INTERDEPENDENCIA: - Entre variables: Análisis Factorial. Componentes principales - Entre sujetos: Análisis Cluster. Análisis Multidimensional No-Métrico. Análisis Conjunto TÉCNICO INFORME DE DIRECCIÓN ESQUEMA DE CLASIFICACIÓN DE TÉCNICAS DE ANÁLISIS MULTIVARIANTE Ø ANÁLISIS DE DEPENDENCIA: ü TABLAS DE CONTINEGENCIA. ü ANOVA, ANCOVA, MANOVA, MANCOVA. ü ANÁLISIS DE REGRESIÓN. ü ANÁLISIS DISCRIMINANTE – LOGIT - PROBIT. ü CORRELACIÓN CANÓNICA. Ø ANÁLISIS DE INTERDEPENDENCIA. Ø ENTRE VARIABLES: ü COMPONENTES PRINCIPALES. ü ANÁLISIS FACTORIAL. ü ANÁLISIS CONJUNTO. Ø ENTRE SUJETOS: ü CLUSTER O ANÁLISIS DE GRUPOS. ü ANÁLISIS MULTIDIMENSIONAL NO MÉTRICO. EXTENSIÓN DE TÉCNICAS DE ANÁLISIS MULTIVARIANTE VICENS OTERO, J. “Estudios de mercado en la empresa española”. Instituto de Predicción Económica L. R. Klein. Documento 96/4. Julio 1996. Resultados para 300 empresas con cifras de ventas superiores a 250 mill. Pts. UTILIZACIÓN DE LOS DISTINTOS TIPOS DE ANÁLISIS ANÁLISIS ESTADÍSTICO SIMPLE ANÁLISIS ESTADÍSTICO MULTIVARIANTE UTILIZACIÓN DE PROGRAMAS DE ORDENADOR PARA EL ANÁLISIS SI (Porcentaje) NO (Porcentaje) TOTAL (Porcentaje) 20.8% 79.2% 100% 8.2% 91.8% 100% 29.8% 70.2% 100% MÉTODOS DE ANÁLISIS REALIZADOS EN 1994 (Porcentaje) ANÁLISIS ESTADÍSTICO NO HA MULTIVARIANTE REALIZADO SI HA REALIZADO PERSONAL PROPIO CONSULTORÍA EXTERNA PERSONAL INTERNO Y EXTERNO TOTAL ANÁLISIS DE LA VARIANZA 88.6% 4.2% 4.8% 2.4% 100% ANÁLISIS DE LA COVARIANZA 94.5% 1.8% 3.7% 0.0% 100% 93.3% 1.2% 4.9% 0.6% 100% CORRELACIÓN CANÓNICA 98.8% 0.0% 1.2% 0.0% 100% ANÁLISIS FACTORIAL 85.4% 2.5% 9.1% 3.0% 100% 89.1% 5.5% 4.2% 1.2% 100% CLUSTER O ANÁLISIS DE GRUPO 87.2% 4.2% 7.4% 1.2% 100% ESCALAS MULTIDIMENSIONALES 95.1% 2.5% 1.2% 1.2% 100% ANÁLISIS CONJUNTO 93.9% 3.0% 2.5% 0.6% 100% ANÁLISIS DISCRIMIANTE ANÁLISIS DE REGRESIÓN FACTORES, VARIABLES Y ESCALAS DE MEDIDA Ø TIPOLOGÍA: ü Variables Continuas y Discretas ü Variable Temporal, Transversal y Panel Data ü ......etc ü ESCALAS DE MEDIDA: Nominal (Factor) Ordinal Intervalo Razón Identifica la pertenencia de un elemento sujeto u objeto a un grupo u otro, a niveles generalmente mutuamente excluyentes. Permite la distinción entre elementos pero no su ordenación. Identifica a cada elemento en una posición de escala respecto a los otros. Identifica la posición ordinal de cada elemento y permite además medir las distancias entre unos y otros utilizando una escala de medida subjetiva. Permite medir las distancias entre elementos utilizando una escala de objetiva y, por lo tanto, posibilita la utilización de razones o ratios comparativos. Ø CONDICIONA LA HERRAMIENTA DE ANÁLISIS Y, POR TANTO, LA CALIDAD DE LOS RESULTADOS Ø ES CONDICIONADA POR LOS OBJETIVOS EXPERIMENTALES, LOS RECURSOS DISPONIBLES, Y LA DIFICULTAD DE PERCEPCIÓN EXPERIMENTAL. TABLAS DE CONTINGENCIA C APROPIADAS CUANDO...... Se desea organizar información relativa a más de un factor, explorar la relación de dependencia o independencia entre los factores y eventualmente medir el grado de asociación entre los mismos. Así mismo, apropiadas cuando se desea medir el grado de concordancia entre clasificaciones factoriales de objetos o sujetos. 1 EJEMPLO 1 (Organización bifactorial): Cómputo sencillo de validez de Test Diagnósticos. Punto de partida: Se ordenan en una tabla de dos dimensiones los resultados de un test diagnóstico para 100 pacientes (50 enfermos - 50 sanos) según los resultados positivos y negativos. La información contenida en las distintas celdas, debidamente relativizada, nos permitirá determinar la sensibilidad del Test (Prob. Diagnóstico correcto para un enfermo), su especificidad Prob. Diagnóstico correcto para un NO enfermo) y sus valores predictivos positivo (Prob. Enfermedad ante test Positivo) y negativo (Prob. NO Enfermedad ante test Negativo) 1 EJEMPLO 2 (Relación entre dos factores): Relación entre el riesgo de infección por virus la hepatitis B del personal sanitario y la manipulación de sangre o material biológico. Punto de partida: Se realiza un estudio serológico en 50 voluntarios del grupo de mayor riesgo y 100 del grupo de menor riesgo. Suponiendo que la muestra es suficientemente representativa se observará la dependencia entre el puesto de trabajo y el riesgo de infección hepática. 1 EJEMPLO 3 (Factores multinivel): Relación entre el intervalo de edad infantil y el padecimiento del sarampión, rubéola y parotiditis como paso previo al estudio de la escolarización como factor de riesgo en la transmisión de estas enfermedades infeccionas. Punto de partida: Se toman los datos de la edad de 265 niños clasificándolos por intervalos en cuatro grupos (Menores de cuatro años, entre 4 y 5 años, entre 6 y 7 años y mayores de siete años). Así mismo, se estudia su situación inmunológica detectándose la presencia o ausencia de anticuerpos frente a cada uno de esos virus. 1 EJEMPLO 4 (Análisis de concordancia): Homogeneidad de criterios en la hospitalización entre dos centros diferentes Punto de partida: Se selecciona una muestra experimental de 50 pacientes que serán atendidos, con los mismos síntomas, por facultativos de dos centros diferentes. Para cada paciente se anota la decisión de hospitalización SI - NO en cada uno de los dos centros. : PROCEDIMIENTO SPPS MENÚ: ESTADÍSTICA - RESUMIR - TABLAS DE CONTINGENCIA FACTOR 1 FACTOR 2 Medidas para el estudio de la correlación, dependencia y asociación entre factores Control de la información a mostrar en las casillas interiores de la tabla y marginales de filas y columnas. ANÁLISIS DE LA VARIANZA C APROPIADO CUANDO...... Se desea analizar si los distintos niveles de un determinado factor inciden en los valores de una variable cuantitativa. Si se emplean como explicativos dos o más factores hablamos de una ANOVA multifactorial y, en ese caso, cobrarán interés los efectos de los niveles de cada uno de los factores y los efectos de las interacciones entre los niveles de los factores. Algunas variantes de esta técnica son especialmente atractivas para casos experimentales concretos, en especial el ANCOVA. 1 EJEMPLO 1 (Anova Unifactorial - Experimento de homogeneidad de datos pareados): Eficacia de un tratamiento antitaquicárdico Punto de partida: Se realiza un experimento con 50 pacientes tomando las pulsaciones por minuto antes y después de la administración del medicamento. 1 EJEMPLO 2 (Anova Unifactorial sobre grupos diferentes): Relación entre la localización del Cáncer Gástrico en el número de monocitos del enfermo. Punto de partida: Se toman 50 enfermos de cáncer gástrico dividios en tres grupos: 15 con carcinoma en fundus, 15 con carcinoma en curvatura y 20 con carcinoma en píloro. Al efectuar un hemograma se realiza un recuento monocitario. 1 EJEMPLO 3 (Anova con dos factores): Independencia, sinergismo o antagonismo del consumo de Haschis y la Cocaína. Punto de partida: Se dispone de una muestra de 100 individuos de los cuales, un 25% no son consumidores de ninguna de las dos drogas, otro 25% son consumidores exclusivos de cocaína, un 25% exclusivos de Haschis y un 25% de ambas drogas simultáneamente. En condiciones experimentales de homogeneidad adecuada se toman las pulsaciones por minuto a estos 100 individuos. El análisis no sólo permitirá diferenciar la variabilidad "biológica" de la debida al consumo individual de cada droga sino también de la debida a la interacción de ambas drogas. : PROCEDIMIENTO SPPS MENÚ (Anova Unifactorial): ESTADÍSTICA - COMPARAR MEDIAS - ANOVA DE UN FACTOR MENÚ (ANOVA Multifactorial): ESTADÍSTICA - MODELO LINEAL GENERAL - COMPONENTES DE LA VARIANZA VARIABLES A EXPLICAR FACTOR EXPLICATIVO Contrastes de existencia de tendencia en la endógena y contrastes "t" de significación para los niveles del factor. Pruebas a posteriori para determinar qué medias difieren en el caso en que el ANOVA resulte significativo. Test de homogeneidad de varianzas, presencia de estadísticos descriptivos y tratamiento de los valores perdidos. ANÁLISIS DE REGRESIÓN C APROPIADO CUANDO...... SIEMPRE que la calidad de los datos lo permita para el análisis de dependencia univariante o multivariante. Su precisión, refinamiento y potencia de análisis es muy superior a las de otras técnicas de análisis de dependencia, permitiendo la realización de ejercicios de simulación y predicción. Como contrapartida, sus virtudes sólo pueden explotarse asumiendo una complejidad que puede llegar a ser muy acusada, de modo que su aplicación exige un importante compromiso de recursos técnicos. 4 VARIANTES BÁSICAS (Recogidas en SPSS) Modelo Básico de Regresión Lineal por MCO Aproximación clásica adecuada para relaciones lineales entre variables exógenas y endógena en las que cabe asumir un único sentido de la causalidad y el estricto cumplimiento de las Hipótesis Básicas tanto estructurales como referidas a la perturbación aleatoria (especialmente la homocedasticidad y ausencia de autocorrelación residual). Regresión no lineal (RNL - NLR) Aproximación genérica para aquellos casos en los que no puede suponerse linealidad en la relación entre exógenas y endógena. Orientado en el SPSS a la predicción simple de series temporales. Estimación ponderada (MCP - WLS) Estimación específica para ajustar relaciones de dependencia en las que se viole la condición de varianza constante para la variable endógena en la población objeto de estudio. El método afina el resultado de una estimación clásica ponderando en mayor medida las observaciones más precisas. Estimación en dos etapas (MC2E - 2SLS) Una de las muchas aproximación específicas para aquellos casos en los que los errores del modelo aparecen correlacionados con alguna exógena, por ejemplo, cuando la relación de causalidad no se da exclusivamente desde las exógenas a la endógena, sospechándose la existencia de un efecto de retroalimentación en sentido inverso. 1 EJEMPLO 1 (Regresión lineal básica multivariante): presión arterial en la población fumadora. Punto de partida: Sobre una muestra de 500 fumadores habituales mayores de 50 años se desea establecer la relación entre la presión arterial y algunas de sus características básicas y hábitos: edad, peso, número de años con el hábito de fumar y número de cigarrillos diarios promedio en los últimos 5 años. Todas las variables pueden medirse en escalas de razón. 1 EJEMPLO 2 (Regresión univariante no lineal): Predicción de la extensión de la infección por VIH. Punto de partida: Utilizando el censo español de casos de infección VIH se determina el número de casos por mil habitantes ocurridos desde 1980. La evolución de la enfermedad será, con seguridad, no lineal, lo que impedirá el ajuste de un modelo básico de regresión. Un ajuste de tipo logístico permitirá realizar una mejor predicción para el período 2001 – 2005. 1 EJEMPLO 3 (Regresión univariante por estimación ponderada): Relación entre la edad de los trabajadores y la duración de las bajas por enfermedad. Punto de partida: Utilizando estadísticas de una mutualidad laboral, se desea establecer la relación entre la edad de los trabajadores y el total de días de anuales que solicitan por baja de enfermedad. La relación positiva es previsible, pero para estimar de forma precisa el valor del parámetro debe observarse el hecho de que, a mayor edad, la varianza de la endógena crece como consecuencia de la aparición progresiva de un mayor espectro de enfermedades de distinta gravedad y, por lo tanto, de distinto período de baja. 1 EJEMPLO 4 (Regresión por estimación con variables instrumentales): Demanda de un determinado producto farmacéutico . Punto de partida: Una empresa farmacéutica está interesada en medir los factores que han impulsado los cambios en las ventas de un novedoso producto sin competencia a lo largo de los últimos tres años. Para ello dispone de datos mensuales de ventas, precio medio, promoción y publicidad entre facultativos e incidencia de la enfermedad en el segmento poblacional de interés. La estimación simple de los parámetros estaría sesgada, especialmente para el parámetro de la incidencia, en cuanto que las ventas del producto farmaceútico pueden funcionar como explicativa para la incidencia de la misma. : PROCEDIMIENTO SPPS MENÚ (Regresión Lineal MCO y Regresión MCP - WLS): ESTADÍSTICA - REGRESIÓN - LINEAL VARIABLE A EXPLICAR VARIABLES EXPLICATIVAS Método para la inclusión selectiva de las variables exógenas Posibilidad de limitar el análisis a un conjunto de casos según el valor de una variable Selección método de Mínimos Cuadrados Ponderados (WLS) Intervalos de confianza para los coeficientes, matriz de varianzas y covarianzas, correlaciones parciales y semiparciales, test multicolinealidad, Durbin Watson. : PROCEDIMIENTO SPPS MENÚ (Regresión Curvilínea): ESTADÍSTICA - REGRESIÓN - ESTIMACIÓN CURVILÍNEA VARIABLES A PREDECIR VARIABLES PREDICTORA ó TIEMPO Variable etiquetar punto. para cada Tipo de modelo de ajuste curvilíneo. : PROCEDIMIENTO SPPS MENÚ (Regresión genérica NO Lineal): ESTADÍSTICA - REGRESIÓN - NO LINEAL VARIABLES A EXPLICAR EXPRESIÓN NO LINEAL DEL MODELO La sintaxis de la expresión no lineal del se escribirá utilizando variables dependientes (cuadro superior), el cuadro operativo básico y las funciones prediseñadas. ANÁLISIS DISCRIMINANTE - ANÁLISIS LOGIT ANÁLISIS PROBIT C APROPIADOS CUANDO...... En términos generales, todas estas técnicas permiten explicar el valor de un factor utilizando la información de variables explicativas cuantitativas. En el campo de la medicina, resulta especialmente atractivo para la diagnosis y para la determinación del nivel de estímulo efectivo en los tratamientos. 4 VARIANTES BÁSICAS (Recogidas en SPSS) Análisis DISCRIMINANTE Aunque todos estos análisis son en realidad análisis discriminantes, el SPSS denomina específicamente A. Discriminante al caso en el que se utiliza una aproximación no probabilística apoyada en cálculos sobre la variación intragrupal y entregrupal observada. El factor a explicar representa generalmente el grupo de pertenencia de una serie de individuos. El análisis discriminante utilizará la información de un conjunto de variables observadas para esos sujetos u objetos a fin de construir unas funciones discriminantes (basadas en simples combinaciones lineales de las variables predictoras), capaces de explicar esa pertenencia a uno u otro grupo (ADD) y de construir un modelo predictivo (ADP) para pronosticar el grupo de pertenencia de un caso a partir de las características observadas de cada caso. Si bien no se reduce sólo al caso dicotómico para la endógena requiere que las variables explicativas sean continuas. Modelos LOGIT - PROBIT El modelo LOGIT es en realidad un tipo específico de regresión en el que la variable endógena es dicotómica mientras que las explicativas pueden ser continuas o categóricas. El contexto es similar al descrito en el cuadro anterior para el análisis discriminante, pero ahora el análisis suele enfocarse a aquellos casos en los que la variable endógena puede interpretarse en términos de probabilidad y el objetivo es cuantificar la relación entre las características individuales de los individuos y esa probabilidad. Los coeficientes de regresión logística, aunque difíciles de interpretar, pueden utilizarse para estimar la razón de las ventajas relativas de cada variable independiente del modelo. La regresión logística es aplicable a un rango más amplio de situaciones de investigación que el análisis discriminante. La regresión PROBIT, muy similar a la empleada en el LOGIT, suele utilizarse en aquellos casos en los que se sospecha que una respuesta dicotómica está influida por el nivel de alguna o algunas variables explicativas. El procedimiento, permitirá estimar muy fácilmente la intensidad necesaria para que un estímulo llegue a inducir una determinada proporción de respuestas. 1 EJEMPLO 1 (Análisis Discriminante): Selección de la cartera de clientes solventes de una Aseguradora Médica. Punto de partida: Una aseguradora analiza su cartera de 2500 clientes distinguiendo a aquellos que han hecho frente a sus cuotas con regularidad de aquellos que no lo han hecho. Adicionalmente, revisa para cada uno de los 2500 clientes algunas variables que se sospecha pueden estar en relación directa con la solvencia: edad, renta mensual, antigüedad del contrato, número de hijos. Estas cinco variables permitirán elaborar un máximo de cuatro funciones discriminantes que ayuden a caracterizar a cada uno de los grupos. Además, si el valor predictivo de las mismas es elevado podrán utilizarse para elaborar la conveniencia de admitir a un nuevo solicitante o rechazar su solicitud como asegurado. 1 EJEMPLO 2 (Análisis LOGIT): Factores de riesgo para el desarrollo de aterosclerosis. Punto de partida: Apoyándonos en el diseño de una amplia muestra de historiales médicos se desea establecer la importancia de cada uno de los factores de riesgo en el desarrollo de la aterosclerosis. Para cada uno de los individuos que constituyen la muestra, se dispone de información para un período determinado acerca de variables referidas a: tabaquismo, dieta (en especial niveles séricos medios de colesterol), edad, sexo, tensión arterial, consumo de alcohol, sedentarismo y antecedentes genéticos. El ajuste de una función LOGIT permitirá determinar cómo incide cada uno de estos factores en la probabilidad de desarrollo de la enfermedad a fin de orientar la política preventiva, elaborándose además un instrumento medidor del riesgo de padecimiento. 1 EJEMPLO 3 (Análisis PROBIT): Determinación de la dosis de respuesta adecuada a un fármaco. Punto de partida: Apoyándonos en un diseño experimental se administra un determinado medicamento a 60 individuos divididos en 20 grupos de 3 personas. A cada grupo se le administra una cantidad en mmg diferente desde 11 (primer grupo) a 30 (último grupo) y se anota su reacción después de un tiempo de 1 hora calificándose el resultado en cada individuo como POSITIVO o NEGATIVO. El ajuste de una función PROBIT permitirá determinar la dosis más adecuada para provocar una reacción positiva al medicamento. : PROCEDIMIENTO SPPS MENÚ (DISCRIMINANTE): ESTADÍSTICA - CLASIFICAR – DISCRIMINANTE FACTOR DE AGRUPACIÓN A EXPLICAR VARIABLES DISCRIMINANTES Estadísticos descriptivos de las variables independientes según los diferentes grupos. Coeficientes de la función de clasificación de Fisher y descomposición de Matrices de Varianzas y Covarianzas. Controla cómo usar para la clasificación de individuos el resultado obtenido en las funciones discriminantes, en especial para fines predictivos. : PROCEDIMIENTO SPPS MENÚ (ANÁLISIS PROBIT): ESTADÍSTICA - REGRESIÓN - PROBIT Variable que contiene, para cada nivel de exposición (casos) el % de reacciones positivas a ese nivel de estimulación. Variable que contiene, para cada nivel de exposición (casos) el número de sujetos expuestos a ese nivel de estimulación. Permite obtener una prueba de paralelismo (todos los niveles del factor tiene pendiente común ) y controlar algunos aspectos de la estimación de los parámetros. Variable o variables predictoras, esto es, variables de estímulos. CORRELACIÓN CANÓNICA C APROPIADA CUANDO...... Se desea abordar el estudio de un fenómeno de causalidad entre dos fenómenos que vienen representadas, tanto el causado como el explicativo, por un conjunto de variables, y no se desea restringir el modo en que cada una de las variables explicativas incide en cada una de las explicadas. 1 EJEMPLO 1 (Análisis Correlación Canónica): Determinación de la relación entre el nivel de desarrollo económico y el nivel de desarrollo sanitario de un conjunto de países. Punto de partida: Un estudio planteado a nivel internacional desea establecer la relación entre el nivel de renta y nivel de desarrollo sanitario en un conjunto de países. El analista dispone de 25 variables homogéneas del nivel de desarrollo sanitario de cada país (gasto farmacéutico de distintos tipos, instalaciones hospitalarias por 1000 hb de distintos tipos, médicos por 1000 hb de distintas especialidades, ....). Así mismo dispone de otras 25 variables relativas al desarrollo económico (PIB real por Hb, tasa de actividad, tasa de paro, capacidad de eneudamiento.....). Mediante un análisis de correlación canónica el analista puede construir un modelo de causalidad entre ambos conjuntos de variables sin necesidad de especificar el detalle del modelo de casualidad para cada par de variables. ANÁLISIS DE COMPONENTES PRINCIPALES C APROPIADO CUANDO...... Se desea reducir las dimensiones de un conjunto de variables sin pérdida excesiva de información. El método de componentes principales permitirá generar combinaciones lineales de las variables originales de modo que las nuevas variables contengan gran parte de la información original. Su coste debe valorarse en términos de interpretabilidad de esos componentes. Aunque no es infrecuente su confusión con el análisis factorial existen importantes diferencias conceptuales; en todo caso, la relación provendría del hecho de que la técnica de componentes principales es uno de los métodos de extracción factorial más utilizados. 1 EJEMPLO 1 (Análisis de Componentes Principales): Determinación de la relación entre la esperanza de vida media y el nivel de desarrollo económico y sanitario de un conjunto de países. Punto de partida: Un estudio planteado a nivel internacional desea establecer la relación entre la esperanza de vida media de un conjunto de países y su nivel de renta y desarrollo sanitario. El analista dispone de 25 variables homogéneas del nivel de desarrollo sanitario de cada país (gasto farmacéutico de distintos tipos, instalaciones hospitalarias por 1000 hb de distintos tipos, médicos por 1000 hb de distintas especialidades, ....). Así mismo dispone de otras 25 variables relativas al desarrollo económico (PIB real por Hb, tasa de actividad, tasa de paro, capacidad de eneudamiento.....). Mediante un análisis de componentes principales el analista puede reducir el conjunto inicial de 50 variables a unos cuantos Componentes Principales, aprovechando las posibles redundancias existentes en datos referidos a cuestiones similares. ANÁLISIS FACTORIAL C APROPIADO CUANDO...... Se desea obtener una medición de una serie de factores de naturaleza inobservables, aprovechando para ello la dependencia o relación común de un conjunto de variables en torno a estos factores. El análisis requiere datos expresados en variables de intervalo. 1 EJEMPLO 1 (Análisis Factorial): Aproximación de la capacidad de abstracción, la capacidad de cálculo y la memoria de los alumnos universitarios. Punto de partida: Partiendo de los expedientes de más de 10.000 alumnos de se extraen las notas correspondientes a 15 materias en las que las proporciones de capacidad de cálculo, capacidad de abstracción y memoria intervienen de en distintas proporciones. Observando las presencia o ausencia de correlaciones entre las distintas notas (comunalidad) pueden identificarse los mecanismos de causalidad en las calificaciones. Un análisis detallado de la composición factorial revelará que los mimos se corresponden con la capacidad de abstracción, capacidad de cálculo y memoria. Las denominadas "puntuaciones factoriales" permitirán medir, a partir de las notas iniciales, las tres capacidades comentadas tanto en los elementos que componen la muestra como en nuevos elementos. 1 EJEMPLO 2 (Ayuda SPSS) (Análisis Factorial): ¿Qué actitudes subyacentes hacen que las personas respondan a las preguntas de una encuesta política de la manera en que lo hacen? Punto de partida: Examinando las correlaciones entre los elementos de la encuesta se deduce que hay una superposición significativa entre los diversos subgrupos de elementos (las preguntas sobre los impuestos tienden a estar correlacionadas entre sí, las preguntas sobre temas militares también están correlacionadas entre sí...., y así sucesivamente). Con el análisis factorial, se puede investigar el número de factores subyacentes y, en muchos casos, se puede identificar lo que los factores representan conceptualmente. Adicionalmente, se pueden calcular las puntuaciones factoriales para cada encuestado, que pueden utilizarse en análisis subsiguientes. Por ejemplo, es posible construir un modelo de regresión logística para predecir el comportamiento de voto basándose en las puntuaciones factoriales. : PROCEDIMIENTO SPPS MENÚ: ESTADÍSTICA - REDUCCIÓN DE DATOS - FACTORIAL El análisis factorial implica, generalmente el desarrollo de tres etapas: Análisis Preliminar de viabilidad, Extracción Factorial y Rotación factorial. El SPSS ofrece una gran flexibilidad para afrontar cada una de estas tres etapas. Conjunto de variables fundamental, a partir para las que se desea encontrar factores subyacentes comunes. Posibilidad de limitar el análisis a un número limitado de casos según una variable de selección. Facilitan el análisis preliminar de las variables y sus correlaciones de cara a anticipar la viabilidad del análisis. Permite especificar el método de extracción, el número de factores a extraer así como las iteraciones máximas a considerar en la extracción. Ofrece varios métodos de rotación tanto ortogonales como oblicuos. Permite obtener y guardar el valor de los factores a partir de las variables originales ANÁLISIS CONJUNTO C APROPIADO CUANDO...... Se desea establecer en que medida los distintos atributos de un objeto inciden en su selección preferente por parte de un conjunto de individuos. El análisis conjunto intentará aproximarse a la estructura subyacente de selección determinando la importancia relativa de cada atributo así como la combinación de los mismos que resulte más atractiva. 1 EJEMPLO 1 (Análisis Conjunto): Diseño de un nuevo producto farmacéutico. Punto de partida: Un laboratorio farmacéutico desea lanzar al mercado un nuevo analgésico de tipo genérico. Su experiencia en el mercado le ha permitido identificar una serie de variables que condicionan la preferencia por una u otra marca como: precio, formato de presentación (grageas, sobres, ...), sabor del preparado, rapidez de acción, cantidad de contenido, tipo de publicidad asociada (facultativo, medios comunicación,..). El análisis conjunto permitirá ordenar de modo relativo cada uno de esos atributos, para ponderar su importancia relativa en la selección del producto y establecer la combinación óptima para el nuevo producto. ANÁLISIS CLUSTER C APROPIADO CUANDO...... Se desea aprovechar la información relativa a un conjunto de variables para clasificar a un grupo amplio de sujetos y objetos en subgrupos de máxima homogeneidad intergrupal y mayor heterogeneidad entregrupal. El análisis cluster no debe confundirse con el discriminante, ya que ese último tiene por objeto explicar una clasificación establecida a priori mientras que el análisis cluster intenta, precisamente, generar esa clasificación a partir de un único grupo global. 1 EJEMPLO 1 (Análisis Cluster): Análisis geográfico de los perfiles de sanitarios de la población. Punto de partida: A fin de planificar convenientemente la política preventiva, desde el Ministerio de Sanidad de un determinado país se plantea la necesidad de dibujar el "mapa sanitario", dividiendo el total del territorio en zonas de características sanitarias homogéneas, no necesariamente similares a las divisiones político administrativas. Se sospecha que una diferenciación de este tipo puede tener sentido en la medida en que algunos de los factores de riesgo más importantes tienen relación con la distribución geográfica: factores demográficos, factores ambientales (clima, calidad del agua,...), dietéticos ó culturales entre otros. Así pues, se recopila información relativa a la incidencia de un conjunto de enfermedades frecuentes como: enfermedades cardiovasculares (cardiopatías coronarias y accidentes cerebro - vasculares), distintos tipos de cáncer (mama, colon y recto, pulmón, cervix y endometrio..), enfermedades de transmisión aérea (gripe, legionelosis, tuberculosis...), enfermedades de transmisión entérica (botulismo, diarreas víricas, salmonelosis, shigelosis, colera., poliomielitis, hepatitis A...), enfermedades transmitidas por contacto (tétanos, brucelosis, toxoplasmosis...) y enfermedades de transmisión sexual (sida, sífilis, ...) La utilización de todos estos indicadores dividirá a la población total en grupos homogéneos desde el punto de vista sanitario. Determinar la viabilidad geográfica de esta agrupación será un paso posterior en el análisis. : PROCEDIMIENTO SPPS MENÚ: ESTADÍSTICA - CLASIFICAR - CONGLOMERADOS JERÁRQUICOS Conjunto de variables utilizadas para la segmentación Variable que etiquetará cada individuo u objeto a clasificar. Guarda el grupo de pertenencia de objetos Permite elaborar el clásico Dendograma o gráfico de agrupación secuencial de los objetos analizados. El SPSS ofrece la posibilidad de aplicar la metodología CLUSTER a variables, en lugar de objetos o sujetos. El análisis Cluster viene condicionado sensiblemente por el método de aglomeración utilizado, la medida de distancia empleada. El SPSS ofrece una amplia variedad de métodos. ANÁLISIS MULTIDIMENSIONAL NO MÉTRICO C APROPIADO CUANDO...... Se desea comprender la estructura subyacente a de un conjunto de medidas de similitud o distancia entre objetos o sujetos. Para ello se asignan las observaciones disponibles de esos sujetos u objetos a posiciones específicas en un espacio conceptual (normalmente de dos o tres dimensiones) de modo que las distancias entre los puntos en el espacio concuerden al máximo con las disimilaridades observadas. En muchos casos, las dimensiones de este espacio conceptual son interpretables y se pueden utilizar para comprender mejor los datos. El escalamiento multidimensional puede también aplicarse a valoraciones subjetivas de disimilaridad entre objetos o conceptos. : PROCEDIMIENTO SPPS MENÚ: ESTADÍSTICA - ESCALAS - ESCALAMIENTO MULTIDIMENSIONAL Conjunto de matrices de variables a partir de las cuales se calcularán las distancias entre objetos o sujetos para explicar sus similaridades Permite controlar nivel de media, condicionalidad, dimensiones y método escalamiento. Normalmente, los datos de partida son matrices que reflejan la similitud o diferencia percibida entre los objetos o sujetos que ocupan cada fila y columna (los datos son distancias). No obstante, si no se han creado las matrices a partir de las variables en bruto, el SPSS las crea conforme a una medida de distancia elegida por el usuario (crear distancias a partir de datos). el la las el de BIBLIOGRAFÍA I. BIBLIOGRAFÍA GENERAL • BERSTEIN, I. (1998): “Applied Multivariate Analysis Aplications” Academic Press. Inc. New York. • BISQUERA ALZINA, R. (1989): “Introducción conceptual al análisis multivariable: un enfoque informático con los paquetes SPSS-X, BMDP, LISREL y SPAD”. Vol. 1, PPU, S.A. • COOLEY, W. y LOHNES, P. (1971): “Multivariate Data Analysis”. New York: John Wiley Cop. • CUADRAS, C.M. (1991): “Métodos de Análisis Multivariante”. Barcelona: PPU (2ª edición). • DANIEL PEÑA SANCHES DE RIVERA. (1989): “Estadística modelos y métodos, 1. Fundamentos”. Alianza Editorial. • DILLON y GOLDSTEIN. (1984): “Multivariate Analysis. Methods and applications”. John Wiley & Sons. • FERRÁN ARANAZ, M. (1996): “SPSS para Windows, Programación y Análisis Estadístico”. McGraw-Hill Interamericana, Madrid. • FLURY, B., RIEDWYL, H. (1988): “Multivariate statistics: a practical approach”. Chapman and Hall. • HAIR, ANDERSON, TATHAM Y BLACK (1998): “Multivariate Data Analysis”. Fifth Edition, Prentice-Hall, New Jersey. • HAIR, J.F.et al (1999): “Análisis Multivariante”. 5ª edición, Prentice-Hall Iberia, Madrid. • JOHNSON R. (1994): “Applied multivariate statistical analysis”. Madison, thurd. de. pp. 459-491. • RICHARD A. JOHNSON, DEAN W. WICHERN. (1981): “Applied multivariate statistical analysis”. Pretince-Hall. • RICHARD A. JOHNSON, DEAN W. WICHERN. (1992): “Applied Multivariate statistical anlysis”. Third edition, Prentice-Hall International, Inc. • SÁNCHEZ CARRIÓN, J.J. (1995): “Manual de Análisis de Datos”. Alianza Editorial. • URIEL, E. (1985): “Análisis de datos: Series temporales y análisis multivariante”. Editorial AC, Colección plan nuevo, Madrid. • URIEL, E. (1995): “Análisis de datos: Series temporales y análisis multivariante”. Editorial AC. • VICÉNS OTERO, J. (1997): “Obtención y Análisis de datos”. Facultad de Económicas UAM. • WILLIAM, R. DILLON and MATTHEW GOLDSTEIN. (1984): “Multivariate Analysis. Methodos and Applications”. II. BIBLIOGRAFÍA ESPECÍFICA POR TEMAS II.1.- TABULACIÓN CRUZADA • BISHOP, Y.M.M.; FIENBERG, S.E. Y HOLLAND, P.W. (1977): “Discrete Multivariante Analysis. Theory and Practice”. MIT PRESS, Cambridge, Massachusetts. • EVERITT, B. (1977): “The analysis of Contingency Tables”. London Chapman and Hall. • FIENBERG, S.E. (1987): “The analysis of cross-classified categorical data”. Cambridge, Mass.: M.I.T. Press. • GOKHALE, D.V. (1978): “The information in contingency tables”. New York: M. Dekker. • GOKHALE, D.V. y KULLBACK, S. (1978): “The information in contingency tables” Statistics: Textbooks and monographs. Vol 3. De. Owen. Minton y Pratt, Nueva York. • HABERMAN, S.J. (1978): “Analysis of qualitative data”. Introductors topics and New developments. New York. Academic Press. • MAXWELL, A.E. (1971): “Analysing qualitative data”. Harmondsworth: Penguin Books, 1970. • O’BRIEN, L.G. (1989): “The statistical anlysis of contingency table designs”. Newcastle Upon Tyne: Newcastle University. • RUÍZ-MAYA, L. (1990): “Metodología Estadística para el Análisis de Datos Cualitativos”. Centro de estudios Sociológicos. Madrid. • SÁNCHEZ CARRIÓN, J.J. (1984): “Análisis de tablas de contingencia”. Colección monografías nº 105. CIS. • SPSS. “Crosstabulation and measures of association, Cap. 10, Statistics Guide”. • UPTON, GRAHAM, J.G. (1978): “The analysis of cross-tabulated data”. John Wiley Cop. II.2.- ANÁLISIS DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA. • COCHRAN, W.G. (1976): “Analysis of Covariance: Its nature and uses”. Biometrics, Vol. 13. • ELLEN R. GIRDEN. (1992): “ANOVA. Repeated Measures”. SAGE University Paper. • GIRDEN, E. (1992): Anova: repeated measures”. Newbury Park, 1992-VI. • INVERSEN, G.R. y NORPORTH, H. “Analysis of Variance”. Quantitative Applications in the Social Sciences Nº 1. A Sage University Paper Series. • RUÍZ-MAYA. (1986): “Métodos Estadísticos de Investigación”. I.N.E. • RUPERT G. MILLER, JR. (1985): “Beyond ANOVA, basics of applied statistics”. John Wiley & Sons. • WILDT, A.R. y ATHOLA, O. (1978) “Analysis of Covariance”. Quantitative Applications in the Social Sciences. A Sage University Paper Series. II.3.- ANÁLISIS DISCRIMINANTE. • CUADRAS, ABELLANO. (1973): “Análisis Estadístico Multivariante. Representación Canónica de Funciones”. Resumen de tésis. V.A. Barcelona. • PETER A. LACHEMBRUCH. (1975): “Discriminant analysis”. Hoguer Press. • VISAUTA VINACUA, B. (1997): “SPSS para Windows”. McGraw-Hill. • WILLIAM R. KLECKA. (1976): “Discriminant analysis”. Series: Quantitative Applications in the Social Sciencies. II.4.- MODELOS DE ELECCIÓN DISCRETA: LOGIT Y PROBIT. • ANDERSON, SIMON P.; ANDRE; THISSE, JACQUES FRANCOIS. (1992): “Discrete choice theory of product differentiation”. Cambridge and London: MIT Press, pag. XVIII, 423. • BESANKO D., PERRY M.K. and SPADY R.H. (1990): “The logical model of monopolistic competition: brand diversity”. The Journal of Industrial Econmics, Vol. 38, nº 4 June. • GRACIA DIEZ, M. (1988): “Modelos con variable dependiente cualitativa y de variación limitada”. Cuadernos económicos, ICE, número 39, 1988/2. • GRACIA DÍEZ, M. (1991): “A Qualitative Analysis of Unemployment in Spain”. Universidad Complutense de Madrid, pag. 159-73. • JOHNSTON, J. (1989): “Métodos de econometría”. Ed. Vicens Vives, Barcelona. • JUDGE G. (1980): “The theory and practice of econometrics”. Jhon Wiley and sons, New York. • LEHRER, EVELYN L. (1992): “The impact of Children on Married Women´s Labor Supply: Black-White Differentials Revisited”. Journal of Human Resources; 27 (3), pag. 422-44. • Micro TSP, User´s Manual. (1986) Mc Graw Hill. • MILLÁN J.A., RUIZ P. (1987): “Modelos logit de adopción de innovaciones en invernaderos de Almería”. Investigación agraria, 2 (2). • NOREEN, E. (1988): “An empirical comparison of probit and OLS Regression hypothesis tests”. Journal of accounting research. Vol. 26, Nº 1 Spring, USA. • NOVALES, A. (1988): “Econometría”. McGraw Hill, Madrid. • RODRÍGUEZ GUTIERREZ, CÉSAR. (1992): “La adquisición de capital humano: Un modelo teórico y su contrastación”. Investigaciones Económicas. 16 (2). Pág. 305-16. • TIM FUTING LIAO. (1988): “Interpreting probability model. Logit, Probit and other generalizad Linear Models”. Series: Cuantitative Applications in the Social Sciences. A Sage University papers series. • VICÉNS, J. (1995): “Modelos con variables cualitativas dicotómicas”. (Nov. 1995). Instituto L.R.Klein. II.5.- CORRELACIÓN CANÓNICA. • LEVINE. (1977): “Canonical Analysis and Factor Composition”. Beverly Hills: Sage Publications. Sage University Papers. II.6.- COMPONENTES PRINCIPALES Y ANÁLISIS FACTORIAL. • APARICIO PÉREZ F. (1988): “La difícil realización de un análisis de componentes principales mediante los programas estadísticos más difundidos en el mercado”. Estadística española, Vol. 30, nº 117, Madrid. • BATISTA FOQUET Y MARTÍNEZ ARIAS. (1989): “Análisis multivariante. Análisis en componentes principales”. Colección ESADE. Editorial Hispano Europea, S.A. pp.49-54. • HARMAN, HARRY. (1976): “Modern factor analysis”. Chicago University Press. • HARMAN, HARRY. (1980): “Análisis Factorial Moderno”. Editorial Saltés. • HOTTELING, H. (1993): “Analysis of a Complex of Statistical Variables into Principal Components”. J. Educ. Psycology, nº 24. • JÖRESKOG, K.G., KLOVAN, J.E., REYMENT, R.A. (1976): “Geological Factor Analysis”. Elsevier Scient. Pub. Co. • KIM JAE-ON y MUELLER, CHARLES. (1978): “Factor analysis, Statistical Methods and Practical Issues. Sage University Paper. • KIM JAE-ON y MUELLER, CHARLES. (1978): “Introduction to factor analysis”. Sage University Paper. • MARTÍN REYES, G. (1978): “Algunos métodos multivariantes y sus apllicaciones en economía”. Cuadernos de CC. Económicas y Empresariales, nº 2, Universidad de Málaga. • NARVAIZA SOLÍS, J.L. (1981): “El análisis Factorial: Exposición Gráfica e Intuitiva”. Boletín de Estudios Económicos, nº 36 (113), Deusto, 1981, 259-285. • PEARSON, K. (1901): “On Lines and Planes of Closest Fit to Systems of Points in Space”. Phil. Magasine, Ser. 6, 2. • SPEARMAN, C. (1904): “General Intelligence Objetively Determined and Measured”. American Journal of Psycology, nº 15. • THURSTONE, L.L. (1931): “Multiple Factor Analysis”. Psychol. Rev., nº 38, 1931, 406. II.7.- ANÁLISIS CLUSTER. • ALDENDERFER, M.S. Y R.K. BLASHFIELD. (1984): “Cluster Analysis”. A Sage University Paper, Series: Quantitative Aplications in the Social Sciences. Nº 07-044. • ANDERBERG, M.R. (1973): “Cluster Analysis for Applications”. Academic Press, New York. • BOGGIS, J.G. y J. HELD. (1971): “Cluster Analysis. A New Tool in Electricity”. Journal of the Market Research Society (England), 13. Abril, 1971, pp. 49-68. • DAY, N.E. y R.M. HEELER. (1971): “Using Cluster Analysis to Improve Marketing Experiments”. Journal of Marketing Research, 8. Agosto, 1971, pp. 340-47. • EVERITT, B.S. (1978): “Graphical Techniques for Multivariate Data”. London: Heineman Educational. • EVERITT, B.S. (1993): “Cluster Analysis”. Tercera Edición. Edward Arnold. A division of Hodder & Stoughton. • JAIN, A.K. y R.C. DUBES. (1988): “Algorithms for Clustering Data” Prentice Hall, Englewood Clidd, N.J. USA. • JAMBU, M. (1983): “Cluster Anlysis and Date Analysis”. Amsterdam: North-Holland. • JARDINE, N. y R. SIBSON. (1971): “Mathematical Taxonomy”, John Wiley & Sons, Chichester. • RAO, C.R. (1952): “Advanced Statistical Methods in Biometrics Research”. John Wiley & Sons, New York. • ROMESBURG, H.CH. (1984): “Cluster Analysis for Research”. Belmont, Calif: Lifetime Learning Publications. • TRYON, R.C.- DANIEL, E.B. (1970): Company. N.Y. “Cluster Analysis”. MC. Graw Book • SOKAL, R.R. y P.H.A. SNEATH. (1973): “Numerical Taxonomy”. W.H. Freeman & Co. San Francisco. • WARD, Jr. J.H.; HOOK, M.R. (1963): “Aplication of Hierachical Grouping Procedure to a Problem of Grouping Profiles”. Educ and Psychology Measurement 23, nº 1 Págs. 69-82. II.8.- ANÁLISIS CONJUNTO. • GIL LUEZAS,C. (1985): “Una aplicación del análisis conjunto a la segmentación de mercado: la segmentación componencial”. Investigación y Marketing. • GREEN, P.E. and YORAM WIND. (1975): “New away to measure consumers judgements”. Harward Business Review (Julu-August 1975). • GREEN, P.E. and V. SRINIVASAN. (1978): “Conjoint analysis in consumer research: issues and outlook”. Journal of consumer research. (September 1978). • GREEN, P.E. (1990): “Conjoint Analysis in Marketing: new development With Implications for Research an Practice”. Journal of Marketing, Octubre 1990. • HELSEN, K., SHANDLER, B. Y GREEN, P. (1988): “Conjoint Internal Validity Under Alternative Profile Presentations”. Journal of Consumer Research, Vol. 5. • KRIEGER A. Y GREEN, P. (1990): “Segmenying Markets With Conjoint Analysis”. Journal of Marketing. Vol. 55. • MARTÍN DÁVILA, M. (1987): “Como diagnosticar lo que los consumidores desean realmente: El análisis conjunto”. (Marzo 1987). • MÚGICA GRIJALBA, J.A. (1989): “Los modelos multiatributo en marketing. El análisis conjunto”. IPMARK (nº 324/16-28 Febrero 1989). • MÚGICA GRIJALBA, J.M. (1989): “El análisis conjunto”. IPMARK. • MÚGICA GRIJALBA, J.M. (1989): “El análisis conjunto (y II). Alternativas, nº 324. problemas y limitaciones”. IPMARK (nº 326/16-31 Febrero 1989). • RIVERO, P. Y FERNÁNDEZ, R. (1993): “Análisis de variables cualitativas: Modelos LOGIT y PROBIT”, Universidad Autónoma de Madrid. • VARELA GONZÁLEZ, J.A. (1985): “El análisis conjunto, una técnica al servicio de la investigación comercial”. Economía y Empresa. • WITTINK, D. Y CATTIN, P. (1981): “Alternative Estimation Methods for Conjoint Analysis: A Monte Carlo Study”. Journal of Marketing Research, Vol XVIII.