CURSO DE INTRODUCCIÓN y MANEJO BÁSICO DEL SPSS

Anuncio
C
O
EJJO
NE
AN
MA
N yy M
ÓN
CIIÓ
CC
UC
DU
OD
CURSO DE INTRO
BÁSIC
PSSSS
L SSP
EL
DE
OD
CO
SE
N II::
ÓN
ESSIIÓ
T
Cllaassiiffiiccaacciióónn,,
Muullttiivvaarriiaannttee.. C
Tééccnicas de Análisis M
descripción y ddiissppoonniibbiilliiddaadd eenn SSPPSSSS
ESQUEMA DE OBTENCIÓN Y ANÁLISIS DE DATOS
DETERMINACIÓN
DEL PROBLEMA
F.SECUNDARIAS
- SOPORTE IMPRESO
- SOPORTE MAGNÉTICO
OBTENCIÓN
DE INFORMACIÓN
F.PRIMARIAS
- UNIVERSO
- CUESTIONARIO
- MUESTREO
- PRETEST Y TRABAJO DE CAMPO
- CONTROL
- CODIFICACIÓN Y TABULACIÓN
ANÁLISIS
SIMPLE
- ESTADÍSTICA DESCRIPTIVA
- ANÁLISIS DE CORRELACIÓN: Numérica,
ordinal o categórica
- NÚMEROS ÍNDICES
MULTIVARIANTE
- GRÁFICOS Y TABLAS
- ANÁLISIS DE DEPENDENCIA: Anova, Ancova, Manova y Mancova. Análisis de Regresión.
Análisis Discriminante. Correlación Canóvnica
- ANÁLISIS DE INTERDEPENDENCIA:
- Entre variables: Análisis Factorial. Componentes principales
- Entre sujetos: Análisis Cluster. Análisis Multidimensional No-Métrico. Análisis Conjunto
TÉCNICO
INFORME
DE DIRECCIÓN
ESQUEMA DE CLASIFICACIÓN DE
TÉCNICAS DE ANÁLISIS MULTIVARIANTE
Ø ANÁLISIS DE DEPENDENCIA:
ü TABLAS DE CONTINEGENCIA.
ü ANOVA, ANCOVA, MANOVA, MANCOVA.
ü ANÁLISIS DE REGRESIÓN.
ü ANÁLISIS DISCRIMINANTE – LOGIT - PROBIT.
ü CORRELACIÓN CANÓNICA.
Ø ANÁLISIS DE INTERDEPENDENCIA.
Ø ENTRE VARIABLES:
ü COMPONENTES PRINCIPALES.
ü ANÁLISIS FACTORIAL.
ü ANÁLISIS CONJUNTO.
Ø ENTRE SUJETOS:
ü CLUSTER O ANÁLISIS DE GRUPOS.
ü ANÁLISIS MULTIDIMENSIONAL NO MÉTRICO.
EXTENSIÓN DE TÉCNICAS DE ANÁLISIS
MULTIVARIANTE
VICENS OTERO, J. “Estudios de mercado en la empresa
española”. Instituto de Predicción Económica L. R. Klein.
Documento 96/4. Julio 1996.
Resultados para 300 empresas con cifras de ventas superiores a 250 mill. Pts.
UTILIZACIÓN DE LOS DISTINTOS TIPOS DE ANÁLISIS
ANÁLISIS ESTADÍSTICO
SIMPLE
ANÁLISIS ESTADÍSTICO MULTIVARIANTE
UTILIZACIÓN DE PROGRAMAS DE
ORDENADOR PARA EL ANÁLISIS
SI
(Porcentaje)
NO
(Porcentaje)
TOTAL
(Porcentaje)
20.8%
79.2%
100%
8.2%
91.8%
100%
29.8%
70.2%
100%
MÉTODOS DE ANÁLISIS REALIZADOS EN 1994
(Porcentaje)
ANÁLISIS ESTADÍSTICO
NO HA
MULTIVARIANTE
REALIZADO
SI HA REALIZADO
PERSONAL
PROPIO
CONSULTORÍA
EXTERNA
PERSONAL
INTERNO Y
EXTERNO
TOTAL
ANÁLISIS DE LA
VARIANZA
88.6%
4.2%
4.8%
2.4%
100%
ANÁLISIS DE LA
COVARIANZA
94.5%
1.8%
3.7%
0.0%
100%
93.3%
1.2%
4.9%
0.6%
100%
CORRELACIÓN
CANÓNICA
98.8%
0.0%
1.2%
0.0%
100%
ANÁLISIS
FACTORIAL
85.4%
2.5%
9.1%
3.0%
100%
89.1%
5.5%
4.2%
1.2%
100%
CLUSTER O
ANÁLISIS DE GRUPO
87.2%
4.2%
7.4%
1.2%
100%
ESCALAS MULTIDIMENSIONALES
95.1%
2.5%
1.2%
1.2%
100%
ANÁLISIS
CONJUNTO
93.9%
3.0%
2.5%
0.6%
100%
ANÁLISIS DISCRIMIANTE
ANÁLISIS DE REGRESIÓN
FACTORES, VARIABLES Y
ESCALAS DE MEDIDA
Ø TIPOLOGÍA:
ü Variables Continuas y Discretas
ü Variable Temporal, Transversal y Panel Data
ü ......etc
ü ESCALAS DE MEDIDA:
Nominal (Factor)
Ordinal
Intervalo
Razón
Identifica la pertenencia de un elemento
sujeto u objeto a un grupo u otro, a
niveles
generalmente
mutuamente
excluyentes. Permite la distinción entre
elementos pero no su ordenación.
Identifica a cada elemento en una
posición de escala respecto a los otros.
Identifica la posición ordinal de cada
elemento y permite además medir las
distancias entre unos y otros utilizando
una escala de medida subjetiva.
Permite medir las distancias entre
elementos utilizando una escala de
objetiva y, por lo tanto, posibilita la
utilización
de
razones
o
ratios
comparativos.
Ø CONDICIONA LA HERRAMIENTA DE ANÁLISIS Y, POR
TANTO, LA CALIDAD DE LOS RESULTADOS
Ø ES
CONDICIONADA
POR
LOS
OBJETIVOS
EXPERIMENTALES, LOS RECURSOS DISPONIBLES, Y
LA DIFICULTAD DE PERCEPCIÓN EXPERIMENTAL.
TABLAS DE CONTINGENCIA
C APROPIADAS CUANDO......
Se desea organizar información relativa a más de un factor, explorar la
relación de dependencia o independencia entre los factores y eventualmente
medir el grado de asociación entre los mismos. Así mismo, apropiadas
cuando se desea medir el grado de concordancia entre clasificaciones
factoriales de objetos o sujetos.
1 EJEMPLO 1 (Organización bifactorial): Cómputo sencillo de
validez de Test Diagnósticos.
Punto de partida: Se ordenan en una tabla de dos dimensiones los
resultados de un test diagnóstico para 100 pacientes (50
enfermos - 50 sanos) según los resultados positivos y
negativos. La información contenida en las distintas
celdas, debidamente relativizada, nos permitirá
determinar la sensibilidad del Test (Prob. Diagnóstico
correcto para un enfermo), su especificidad Prob.
Diagnóstico correcto para un NO enfermo) y sus valores
predictivos positivo (Prob. Enfermedad ante test
Positivo) y negativo (Prob. NO Enfermedad ante test
Negativo)
1 EJEMPLO 2 (Relación entre dos factores): Relación entre el
riesgo de infección por virus la hepatitis B del personal sanitario
y la manipulación de sangre o material biológico.
Punto de partida: Se realiza un estudio serológico en 50 voluntarios del
grupo de mayor riesgo y 100 del grupo de menor riesgo.
Suponiendo que la muestra es suficientemente
representativa se observará la dependencia entre el
puesto de trabajo y el riesgo de infección hepática.
1 EJEMPLO 3 (Factores multinivel): Relación entre el intervalo
de edad infantil y el padecimiento del sarampión, rubéola y
parotiditis como paso previo al estudio de la escolarización como
factor de riesgo en la transmisión de estas enfermedades
infeccionas.
Punto de partida: Se toman los datos de la edad de 265 niños
clasificándolos por intervalos en cuatro grupos (Menores
de cuatro años, entre 4 y 5 años, entre 6 y 7 años y
mayores de siete años). Así mismo, se estudia su
situación inmunológica detectándose la presencia o
ausencia de anticuerpos frente a cada uno de esos virus.
1 EJEMPLO 4 (Análisis de concordancia): Homogeneidad de
criterios en la hospitalización entre dos centros diferentes
Punto de partida: Se selecciona una muestra experimental de 50 pacientes
que serán atendidos, con los mismos síntomas, por
facultativos de dos centros diferentes. Para cada paciente
se anota la decisión de hospitalización SI - NO en cada
uno de los dos centros.
: PROCEDIMIENTO SPPS
MENÚ: ESTADÍSTICA - RESUMIR - TABLAS DE CONTINGENCIA
FACTOR 1
FACTOR 2
Medidas para el estudio de la
correlación,
dependencia
y
asociación entre factores
Control de la información a
mostrar en las casillas interiores
de la tabla y marginales de filas
y columnas.
ANÁLISIS DE LA VARIANZA
C APROPIADO CUANDO......
Se desea analizar si los distintos niveles de un determinado factor inciden
en los valores de una variable cuantitativa. Si se emplean como
explicativos dos o más factores hablamos de una ANOVA multifactorial y,
en ese caso, cobrarán interés los efectos de los niveles de cada uno de los
factores y los efectos de las interacciones entre los niveles de los factores.
Algunas variantes de esta técnica son especialmente atractivas para casos
experimentales concretos, en especial el ANCOVA.
1 EJEMPLO 1 (Anova Unifactorial - Experimento de
homogeneidad de datos pareados): Eficacia de un tratamiento
antitaquicárdico
Punto de partida: Se realiza un experimento con 50 pacientes tomando las
pulsaciones por minuto antes y después de la
administración del medicamento.
1 EJEMPLO 2 (Anova Unifactorial sobre grupos diferentes):
Relación entre la localización del Cáncer Gástrico en el número
de monocitos del enfermo.
Punto de partida: Se toman 50 enfermos de cáncer gástrico dividios en tres
grupos: 15 con carcinoma en fundus, 15 con carcinoma
en curvatura y 20 con carcinoma en píloro. Al efectuar
un hemograma se realiza un recuento monocitario.
1 EJEMPLO 3 (Anova con dos factores): Independencia,
sinergismo o antagonismo del consumo de Haschis y la Cocaína.
Punto de partida: Se dispone de una muestra de 100 individuos de los
cuales, un 25% no son consumidores de ninguna de las
dos drogas, otro 25% son consumidores exclusivos de
cocaína, un 25% exclusivos de Haschis y un 25% de
ambas drogas simultáneamente. En condiciones
experimentales de homogeneidad adecuada se toman las
pulsaciones por minuto a estos 100 individuos. El
análisis no sólo permitirá diferenciar la variabilidad
"biológica" de la debida al consumo individual de cada
droga sino también de la debida a la interacción de
ambas drogas.
: PROCEDIMIENTO SPPS
MENÚ (Anova Unifactorial):
ESTADÍSTICA - COMPARAR MEDIAS - ANOVA DE UN FACTOR
MENÚ (ANOVA Multifactorial):
ESTADÍSTICA - MODELO LINEAL GENERAL - COMPONENTES DE LA VARIANZA
VARIABLES A
EXPLICAR
FACTOR EXPLICATIVO
Contrastes de existencia de
tendencia en la endógena y
contrastes "t" de significación
para los niveles del factor.
Pruebas a posteriori para
determinar qué medias difieren
en el caso en que el ANOVA
resulte significativo.
Test
de
homogeneidad
de
varianzas, presencia de estadísticos
descriptivos y tratamiento de los
valores perdidos.
ANÁLISIS DE REGRESIÓN
C APROPIADO CUANDO......
SIEMPRE que la calidad de los datos lo permita para el análisis de
dependencia univariante o multivariante. Su precisión, refinamiento y
potencia de análisis es muy superior a las de otras técnicas de análisis de
dependencia, permitiendo la realización de ejercicios de simulación y
predicción. Como contrapartida, sus virtudes sólo pueden explotarse
asumiendo una complejidad que puede llegar a ser muy acusada, de modo
que su aplicación exige un importante compromiso de recursos técnicos.
4 VARIANTES BÁSICAS (Recogidas en SPSS)
Modelo Básico de Regresión Lineal por MCO
Aproximación clásica adecuada para relaciones lineales entre variables
exógenas y endógena en las que cabe asumir un único sentido de la
causalidad y el estricto cumplimiento de las Hipótesis Básicas tanto
estructurales como referidas a la perturbación aleatoria (especialmente la
homocedasticidad y ausencia de autocorrelación residual).
Regresión no lineal (RNL - NLR)
Aproximación genérica para aquellos casos en los que no puede suponerse
linealidad en la relación entre exógenas y endógena. Orientado en el SPSS
a la predicción simple de series temporales.
Estimación ponderada (MCP - WLS)
Estimación específica para ajustar relaciones de dependencia en las que se
viole la condición de varianza constante para la variable endógena en la
población objeto de estudio. El método afina el resultado de una estimación
clásica ponderando en mayor medida las observaciones más precisas.
Estimación en dos etapas (MC2E - 2SLS)
Una de las muchas aproximación específicas para aquellos casos en los que
los errores del modelo aparecen correlacionados con alguna exógena, por
ejemplo, cuando la relación de causalidad no se da exclusivamente desde
las exógenas a la endógena, sospechándose la existencia de un efecto de
retroalimentación en sentido inverso.
1 EJEMPLO 1 (Regresión lineal básica multivariante): presión
arterial en la población fumadora.
Punto de partida: Sobre una muestra de 500 fumadores habituales mayores
de 50 años se desea establecer la relación entre la presión
arterial y algunas de sus características básicas y
hábitos: edad, peso, número de años con el hábito de
fumar y número de cigarrillos diarios promedio en los
últimos 5 años. Todas las variables pueden medirse en
escalas de razón.
1 EJEMPLO 2 (Regresión univariante no lineal): Predicción de
la extensión de la infección por VIH.
Punto de partida: Utilizando el censo español de casos de infección VIH se
determina el número de casos por mil habitantes
ocurridos desde 1980. La evolución de la enfermedad
será, con seguridad, no lineal, lo que impedirá el ajuste
de un modelo básico de regresión. Un ajuste de tipo
logístico permitirá realizar una mejor predicción para el
período 2001 – 2005.
1 EJEMPLO
3 (Regresión univariante por estimación
ponderada): Relación entre la edad de los trabajadores y la
duración de las bajas por enfermedad.
Punto de partida: Utilizando estadísticas de una mutualidad laboral, se
desea establecer la relación entre la edad de los
trabajadores y el total de días de anuales que solicitan
por baja de enfermedad. La relación positiva es
previsible, pero para estimar de forma precisa el valor
del parámetro debe observarse el hecho de que, a mayor
edad, la varianza de la endógena crece como
consecuencia de la aparición progresiva de un mayor
espectro de enfermedades de distinta gravedad y, por lo
tanto, de distinto período de baja.
1 EJEMPLO 4 (Regresión por estimación con variables
instrumentales): Demanda de un determinado producto
farmacéutico .
Punto de partida: Una empresa farmacéutica está interesada en medir los
factores que han impulsado los cambios en las ventas de
un novedoso producto sin competencia a lo largo de los
últimos tres años. Para ello dispone de datos mensuales
de ventas, precio medio, promoción y publicidad entre
facultativos e incidencia de la enfermedad en el
segmento poblacional de interés. La estimación simple
de los parámetros estaría sesgada, especialmente para el
parámetro de la incidencia, en cuanto que las ventas del
producto farmaceútico pueden funcionar como
explicativa para la incidencia de la misma.
: PROCEDIMIENTO SPPS
MENÚ (Regresión Lineal MCO y Regresión MCP - WLS):
ESTADÍSTICA - REGRESIÓN - LINEAL
VARIABLE A
EXPLICAR
VARIABLES
EXPLICATIVAS
Método para la
inclusión selectiva
de las variables
exógenas
Posibilidad
de
limitar el análisis a
un conjunto de casos
según el valor de
una variable
Selección método
de Mínimos
Cuadrados
Ponderados (WLS)
Intervalos de confianza para los coeficientes,
matriz
de
varianzas
y
covarianzas,
correlaciones parciales y semiparciales, test
multicolinealidad, Durbin Watson.
: PROCEDIMIENTO SPPS
MENÚ (Regresión Curvilínea):
ESTADÍSTICA - REGRESIÓN - ESTIMACIÓN CURVILÍNEA
VARIABLES A
PREDECIR
VARIABLES
PREDICTORA ó
TIEMPO
Variable
etiquetar
punto.
para
cada
Tipo de modelo de
ajuste curvilíneo.
: PROCEDIMIENTO SPPS
MENÚ (Regresión genérica NO Lineal):
ESTADÍSTICA - REGRESIÓN - NO LINEAL
VARIABLES A
EXPLICAR
EXPRESIÓN
NO LINEAL
DEL MODELO
La sintaxis de la expresión no lineal del se
escribirá utilizando variables dependientes
(cuadro superior), el cuadro operativo
básico y las funciones prediseñadas.
ANÁLISIS DISCRIMINANTE - ANÁLISIS LOGIT ANÁLISIS PROBIT
C APROPIADOS CUANDO......
En términos generales, todas estas técnicas permiten explicar el valor de un
factor utilizando la información de variables explicativas cuantitativas. En
el campo de la medicina, resulta especialmente atractivo para la diagnosis y
para la determinación del nivel de estímulo efectivo en los tratamientos.
4 VARIANTES BÁSICAS (Recogidas en SPSS)
Análisis DISCRIMINANTE
Aunque todos estos análisis son en realidad análisis discriminantes, el
SPSS denomina específicamente A. Discriminante al caso en el que se
utiliza una aproximación no probabilística apoyada en cálculos sobre la
variación intragrupal y entregrupal observada. El factor a explicar
representa generalmente el grupo de pertenencia de una serie de
individuos. El análisis discriminante utilizará la información de un
conjunto de variables observadas para esos sujetos u objetos a fin de
construir unas funciones discriminantes (basadas en simples
combinaciones lineales de las variables predictoras), capaces de explicar
esa pertenencia a uno u otro grupo (ADD) y de construir un modelo
predictivo (ADP) para pronosticar el grupo de pertenencia de un caso a
partir de las características observadas de cada caso. Si bien no se reduce
sólo al caso dicotómico para la endógena requiere que las variables
explicativas sean continuas.
Modelos LOGIT - PROBIT
El modelo LOGIT es en realidad un tipo específico de regresión en el que
la variable endógena es dicotómica mientras que las explicativas pueden
ser continuas o categóricas. El contexto es similar al descrito en el cuadro
anterior para el análisis discriminante, pero ahora el análisis suele enfocarse
a aquellos casos en los que la variable endógena puede interpretarse en
términos de probabilidad y el objetivo es cuantificar la relación entre las
características individuales de los individuos y esa probabilidad. Los
coeficientes de regresión logística, aunque difíciles de interpretar, pueden
utilizarse para estimar la razón de las ventajas relativas de cada variable
independiente del modelo. La regresión logística es aplicable a un rango
más amplio de situaciones de investigación que el análisis discriminante.
La regresión PROBIT, muy similar a la empleada en el LOGIT, suele
utilizarse en aquellos casos en los que se sospecha que una respuesta
dicotómica está influida por el nivel de alguna o algunas variables
explicativas. El procedimiento, permitirá estimar muy fácilmente la
intensidad necesaria para que un estímulo llegue a inducir una determinada
proporción de respuestas.
1 EJEMPLO 1 (Análisis Discriminante): Selección de la cartera
de clientes solventes de una Aseguradora Médica.
Punto de partida: Una aseguradora analiza su cartera de 2500 clientes
distinguiendo a aquellos que han hecho frente a sus
cuotas con regularidad de aquellos que no lo han hecho.
Adicionalmente, revisa para cada uno de los 2500
clientes algunas variables que se sospecha pueden estar
en relación directa con la solvencia: edad, renta mensual,
antigüedad del contrato, número de hijos.
Estas cinco variables permitirán elaborar un máximo de
cuatro funciones discriminantes que ayuden a
caracterizar a cada uno de los grupos. Además, si el valor
predictivo de las mismas es elevado podrán utilizarse
para elaborar la conveniencia de admitir a un nuevo
solicitante o rechazar su solicitud como asegurado.
1 EJEMPLO 2 (Análisis LOGIT): Factores de riesgo para el
desarrollo de aterosclerosis.
Punto de partida: Apoyándonos en el diseño de una amplia muestra de
historiales médicos se desea establecer la importancia de
cada uno de los factores de riesgo en el desarrollo de la
aterosclerosis. Para cada uno de los individuos que
constituyen la muestra, se dispone de información para
un período determinado acerca de variables referidas a:
tabaquismo, dieta (en especial niveles séricos medios de
colesterol), edad, sexo, tensión arterial, consumo de
alcohol, sedentarismo y antecedentes genéticos. El ajuste
de una función LOGIT permitirá determinar cómo incide
cada uno de estos factores en la probabilidad de
desarrollo de la enfermedad a fin de orientar la política
preventiva, elaborándose además un instrumento
medidor del riesgo de padecimiento.
1 EJEMPLO 3 (Análisis PROBIT): Determinación de la dosis
de respuesta adecuada a un fármaco.
Punto de partida: Apoyándonos en un diseño experimental se administra
un determinado medicamento a 60 individuos divididos
en 20 grupos de 3 personas. A cada grupo se le
administra una cantidad en mmg diferente desde 11
(primer grupo) a 30 (último grupo) y se anota su
reacción después de un tiempo de 1 hora calificándose el
resultado en cada individuo como POSITIVO o
NEGATIVO. El ajuste de una función PROBIT
permitirá determinar la dosis más adecuada para
provocar una reacción positiva al medicamento.
: PROCEDIMIENTO SPPS
MENÚ (DISCRIMINANTE):
ESTADÍSTICA - CLASIFICAR – DISCRIMINANTE
FACTOR DE
AGRUPACIÓN A
EXPLICAR
VARIABLES
DISCRIMINANTES
Estadísticos descriptivos de las variables independientes
según los diferentes grupos. Coeficientes de la función de
clasificación de Fisher y descomposición de Matrices de
Varianzas y Covarianzas.
Controla
cómo
usar
para
la
clasificación
de
individuos
el
resultado obtenido
en las funciones
discriminantes, en
especial para fines
predictivos.
: PROCEDIMIENTO SPPS
MENÚ (ANÁLISIS PROBIT):
ESTADÍSTICA - REGRESIÓN - PROBIT
Variable que contiene,
para cada nivel de
exposición (casos) el
%
de
reacciones
positivas a ese nivel
de estimulación.
Variable que contiene,
para cada nivel de
exposición (casos) el
número de sujetos
expuestos a ese nivel
de estimulación.
Permite obtener una prueba de
paralelismo (todos los niveles del
factor tiene pendiente común ) y
controlar algunos aspectos de la
estimación de los parámetros.
Variable
o
variables
predictoras, esto
es, variables de
estímulos.
CORRELACIÓN CANÓNICA
C APROPIADA CUANDO......
Se desea abordar el estudio de un fenómeno de causalidad entre dos
fenómenos que vienen representadas, tanto el causado como el explicativo,
por un conjunto de variables, y no se desea restringir el modo en que cada
una de las variables explicativas incide en cada una de las explicadas.
1 EJEMPLO 1 (Análisis Correlación Canónica): Determinación
de la relación entre el nivel de desarrollo económico y el nivel de
desarrollo sanitario de un conjunto de países.
Punto de partida: Un estudio planteado a nivel internacional desea
establecer la relación entre el nivel de renta y nivel de
desarrollo sanitario en un conjunto de países. El analista
dispone de 25 variables homogéneas del nivel de
desarrollo sanitario de cada país (gasto farmacéutico de
distintos tipos, instalaciones hospitalarias por 1000 hb de
distintos tipos, médicos por 1000 hb de distintas
especialidades, ....). Así mismo dispone de otras 25
variables relativas al desarrollo económico (PIB real por
Hb, tasa de actividad, tasa de paro, capacidad de
eneudamiento.....). Mediante un análisis de correlación
canónica el analista puede construir un modelo de
causalidad entre ambos conjuntos de variables sin
necesidad de especificar el detalle del modelo de
casualidad para cada par de variables.
ANÁLISIS DE COMPONENTES PRINCIPALES
C APROPIADO CUANDO......
Se desea reducir las dimensiones de un conjunto de variables sin pérdida
excesiva de información. El método de componentes principales permitirá
generar combinaciones lineales de las variables originales de modo que las
nuevas variables contengan gran parte de la información original. Su coste
debe valorarse en términos de interpretabilidad de esos componentes.
Aunque no es infrecuente su confusión con el análisis factorial existen
importantes diferencias conceptuales; en todo caso, la relación provendría
del hecho de que la técnica de componentes principales es uno de los
métodos de extracción factorial más utilizados.
1 EJEMPLO 1 (Análisis de Componentes Principales):
Determinación de la relación entre la esperanza de vida media y
el nivel de desarrollo económico y sanitario de un conjunto de
países.
Punto de partida: Un estudio planteado a nivel internacional desea
establecer la relación entre la esperanza de vida media de
un conjunto de países y su nivel de renta y desarrollo
sanitario. El analista dispone de 25 variables
homogéneas del nivel de desarrollo sanitario de cada país
(gasto farmacéutico de distintos tipos, instalaciones
hospitalarias por 1000 hb de distintos tipos, médicos por
1000 hb de distintas especialidades, ....). Así mismo
dispone de otras 25 variables relativas al desarrollo
económico (PIB real por Hb, tasa de actividad, tasa de
paro, capacidad de eneudamiento.....). Mediante un
análisis de componentes principales el analista puede
reducir el conjunto inicial de 50 variables a unos cuantos
Componentes Principales, aprovechando las posibles
redundancias existentes en datos referidos a cuestiones
similares.
ANÁLISIS FACTORIAL
C APROPIADO CUANDO......
Se desea obtener una medición de una serie de factores de naturaleza
inobservables, aprovechando para ello la dependencia o relación común de
un conjunto de variables en torno a estos factores. El análisis requiere datos
expresados en variables de intervalo.
1 EJEMPLO 1 (Análisis Factorial): Aproximación de la
capacidad de abstracción, la capacidad de cálculo y la memoria
de los alumnos universitarios.
Punto de partida: Partiendo de los expedientes de más de 10.000 alumnos
de se extraen las notas correspondientes a 15 materias en
las que las proporciones de capacidad de cálculo,
capacidad de abstracción y memoria intervienen de en
distintas proporciones. Observando las presencia o
ausencia de correlaciones entre las distintas notas
(comunalidad) pueden identificarse los mecanismos de
causalidad en las calificaciones. Un análisis detallado de
la composición factorial revelará que los mimos se
corresponden con la capacidad de abstracción, capacidad
de cálculo y memoria. Las denominadas "puntuaciones
factoriales" permitirán medir, a partir de las notas
iniciales, las tres capacidades comentadas tanto en los
elementos que componen la muestra como en nuevos
elementos.
1 EJEMPLO 2 (Ayuda SPSS) (Análisis Factorial): ¿Qué
actitudes subyacentes hacen que las personas respondan a las
preguntas de una encuesta política de la manera en que lo
hacen?
Punto de partida: Examinando las correlaciones entre los elementos de la
encuesta se deduce que hay una superposición
significativa entre los diversos subgrupos de elementos
(las preguntas sobre los impuestos tienden a estar
correlacionadas entre sí, las preguntas sobre temas
militares también están correlacionadas entre sí...., y así
sucesivamente). Con el análisis factorial, se puede
investigar el número de factores subyacentes y, en
muchos casos, se puede identificar lo que los factores
representan conceptualmente. Adicionalmente, se pueden
calcular las puntuaciones factoriales para cada
encuestado, que pueden utilizarse en análisis
subsiguientes. Por ejemplo, es posible construir un
modelo de regresión logística para predecir el
comportamiento de voto basándose en las puntuaciones
factoriales.
: PROCEDIMIENTO SPPS
MENÚ:
ESTADÍSTICA - REDUCCIÓN DE DATOS - FACTORIAL
El análisis factorial implica, generalmente el desarrollo de tres etapas: Análisis
Preliminar de viabilidad, Extracción Factorial y Rotación factorial. El SPSS ofrece
una gran flexibilidad para afrontar cada una de estas tres etapas.
Conjunto
de
variables
fundamental,
a
partir para las que se
desea
encontrar
factores subyacentes
comunes.
Posibilidad de limitar
el análisis a un
número limitado de
casos
según
una
variable de selección.
Facilitan el análisis
preliminar de las
variables
y
sus
correlaciones
de
cara a anticipar la
viabilidad
del
análisis.
Permite especificar el
método de extracción,
el número de factores
a extraer así como las
iteraciones máximas a
considerar
en
la
extracción.
Ofrece varios métodos
de rotación tanto
ortogonales como
oblicuos.
Permite obtener y
guardar el valor de los
factores a partir de las
variables originales
ANÁLISIS CONJUNTO
C APROPIADO CUANDO......
Se desea establecer en que medida los distintos atributos de un objeto
inciden en su selección preferente por parte de un conjunto de individuos.
El análisis conjunto intentará aproximarse a la estructura subyacente de
selección determinando la importancia relativa de cada atributo así como la
combinación de los mismos que resulte más atractiva.
1 EJEMPLO 1 (Análisis Conjunto): Diseño de un nuevo
producto farmacéutico.
Punto de partida: Un laboratorio farmacéutico desea lanzar al mercado un
nuevo analgésico de tipo genérico. Su experiencia en el
mercado le ha permitido identificar una serie de variables
que condicionan la preferencia por una u otra marca
como: precio, formato de presentación (grageas, sobres,
...), sabor del preparado, rapidez de acción, cantidad de
contenido, tipo de publicidad asociada (facultativo,
medios comunicación,..). El análisis conjunto permitirá
ordenar de modo relativo cada uno de esos atributos,
para ponderar su importancia relativa en la selección del
producto y establecer la combinación óptima para el
nuevo producto.
ANÁLISIS CLUSTER
C APROPIADO CUANDO......
Se desea aprovechar la información relativa a un conjunto de variables para
clasificar a un grupo amplio de sujetos y objetos en subgrupos de máxima
homogeneidad intergrupal y mayor heterogeneidad entregrupal. El análisis
cluster no debe confundirse con el discriminante, ya que ese último tiene
por objeto explicar una clasificación establecida a priori mientras que el
análisis cluster intenta, precisamente, generar esa clasificación a partir de
un único grupo global.
1 EJEMPLO 1 (Análisis Cluster): Análisis geográfico de los
perfiles de sanitarios de la población.
Punto de partida: A fin de planificar convenientemente la política
preventiva, desde el Ministerio de Sanidad de un
determinado país se plantea la necesidad de dibujar el
"mapa sanitario", dividiendo el total del territorio en
zonas de características sanitarias homogéneas, no
necesariamente similares a las divisiones político
administrativas. Se sospecha que una diferenciación de
este tipo puede tener sentido en la medida en que algunos
de los factores de riesgo más importantes tienen relación
con la distribución geográfica: factores demográficos,
factores ambientales (clima, calidad del agua,...),
dietéticos ó culturales entre otros. Así pues, se recopila
información relativa a la incidencia de un conjunto de
enfermedades
frecuentes
como:
enfermedades
cardiovasculares (cardiopatías coronarias y accidentes
cerebro - vasculares), distintos tipos de cáncer (mama,
colon y recto, pulmón, cervix y endometrio..),
enfermedades de transmisión aérea (gripe, legionelosis,
tuberculosis...), enfermedades de transmisión entérica
(botulismo, diarreas víricas, salmonelosis, shigelosis,
colera., poliomielitis, hepatitis A...), enfermedades
transmitidas por contacto (tétanos, brucelosis,
toxoplasmosis...) y enfermedades de transmisión sexual
(sida, sífilis, ...) La utilización de todos estos indicadores
dividirá a la población total en grupos homogéneos desde
el punto de vista sanitario. Determinar la viabilidad
geográfica de esta agrupación será un paso posterior en
el análisis.
: PROCEDIMIENTO SPPS
MENÚ:
ESTADÍSTICA - CLASIFICAR - CONGLOMERADOS JERÁRQUICOS
Conjunto
de
variables utilizadas
para la segmentación
Variable
que
etiquetará
cada
individuo u objeto a
clasificar.
Guarda el grupo de
pertenencia de objetos
Permite elaborar el
clásico Dendograma o
gráfico de agrupación
secuencial de los
objetos analizados.
El SPSS ofrece la
posibilidad de aplicar
la metodología
CLUSTER a
variables, en lugar de
objetos o sujetos.
El análisis Cluster viene condicionado sensiblemente
por el método de aglomeración utilizado, la medida de
distancia empleada. El SPSS ofrece una amplia
variedad de métodos.
ANÁLISIS MULTIDIMENSIONAL NO MÉTRICO
C APROPIADO CUANDO......
Se desea comprender la estructura subyacente a de un conjunto de medidas
de similitud o distancia entre objetos o sujetos. Para ello se asignan las
observaciones disponibles de esos sujetos u objetos a posiciones específicas
en un espacio conceptual (normalmente de dos o tres dimensiones) de
modo que las distancias entre los puntos en el espacio concuerden al
máximo con las disimilaridades observadas. En muchos casos, las
dimensiones de este espacio conceptual son interpretables y se pueden
utilizar para comprender mejor los datos. El escalamiento multidimensional
puede también aplicarse a valoraciones subjetivas de disimilaridad entre
objetos o conceptos.
: PROCEDIMIENTO SPPS
MENÚ:
ESTADÍSTICA - ESCALAS - ESCALAMIENTO MULTIDIMENSIONAL
Conjunto
de
matrices de variables
a partir de las cuales
se calcularán las
distancias
entre
objetos o sujetos
para explicar sus
similaridades
Permite controlar
nivel de media,
condicionalidad,
dimensiones
y
método
escalamiento.
Normalmente, los datos de partida son matrices que reflejan la similitud o
diferencia percibida entre los objetos o sujetos que ocupan cada fila y columna
(los datos son distancias). No obstante, si no se han creado las matrices a partir
de las variables en bruto, el SPSS las crea conforme a una medida de distancia
elegida por el usuario (crear distancias a partir de datos).
el
la
las
el
de
BIBLIOGRAFÍA
I. BIBLIOGRAFÍA GENERAL
•
BERSTEIN, I. (1998): “Applied Multivariate Analysis Aplications” Academic Press.
Inc. New York.
•
BISQUERA ALZINA, R. (1989): “Introducción conceptual al análisis multivariable:
un enfoque informático con los paquetes SPSS-X, BMDP, LISREL y SPAD”. Vol. 1,
PPU, S.A.
•
COOLEY, W. y LOHNES, P. (1971): “Multivariate Data Analysis”. New York: John
Wiley Cop.
•
CUADRAS, C.M. (1991): “Métodos de Análisis Multivariante”. Barcelona: PPU (2ª
edición).
•
DANIEL PEÑA SANCHES DE RIVERA. (1989): “Estadística modelos y métodos, 1.
Fundamentos”. Alianza Editorial.
•
DILLON y GOLDSTEIN. (1984): “Multivariate Analysis. Methods and applications”.
John Wiley & Sons.
•
FERRÁN ARANAZ, M. (1996): “SPSS para Windows, Programación y Análisis
Estadístico”. McGraw-Hill Interamericana, Madrid.
•
FLURY, B., RIEDWYL, H. (1988): “Multivariate statistics: a practical approach”.
Chapman and Hall.
•
HAIR, ANDERSON, TATHAM Y BLACK (1998): “Multivariate Data Analysis”.
Fifth Edition, Prentice-Hall, New Jersey.
•
HAIR, J.F.et al (1999): “Análisis Multivariante”. 5ª edición, Prentice-Hall Iberia,
Madrid.
•
JOHNSON R. (1994): “Applied multivariate statistical analysis”. Madison, thurd. de.
pp. 459-491.
•
RICHARD A. JOHNSON, DEAN W. WICHERN. (1981): “Applied multivariate
statistical analysis”. Pretince-Hall.
•
RICHARD A. JOHNSON, DEAN W. WICHERN. (1992): “Applied Multivariate
statistical anlysis”. Third edition, Prentice-Hall International, Inc.
•
SÁNCHEZ CARRIÓN, J.J. (1995): “Manual de Análisis de Datos”. Alianza Editorial.
•
URIEL, E. (1985): “Análisis de datos: Series temporales y análisis multivariante”.
Editorial AC, Colección plan nuevo, Madrid.
•
URIEL, E. (1995): “Análisis de datos: Series temporales y análisis multivariante”.
Editorial AC.
•
VICÉNS OTERO, J. (1997): “Obtención y Análisis de datos”. Facultad de Económicas
UAM.
•
WILLIAM, R. DILLON and MATTHEW GOLDSTEIN. (1984): “Multivariate
Analysis. Methodos and Applications”.
II. BIBLIOGRAFÍA ESPECÍFICA POR TEMAS
II.1.- TABULACIÓN CRUZADA
•
BISHOP, Y.M.M.; FIENBERG, S.E. Y HOLLAND, P.W. (1977): “Discrete
Multivariante
Analysis.
Theory
and
Practice”.
MIT
PRESS,
Cambridge,
Massachusetts.
•
EVERITT, B. (1977): “The analysis of Contingency Tables”. London Chapman and
Hall.
•
FIENBERG, S.E. (1987): “The analysis of cross-classified categorical data”.
Cambridge, Mass.: M.I.T. Press.
•
GOKHALE, D.V. (1978): “The information in contingency tables”. New York: M.
Dekker.
•
GOKHALE, D.V. y KULLBACK, S. (1978): “The information in contingency tables”
Statistics: Textbooks and monographs. Vol 3. De. Owen. Minton y Pratt, Nueva York.
•
HABERMAN, S.J. (1978): “Analysis of qualitative data”. Introductors topics and New
developments. New York. Academic Press.
•
MAXWELL, A.E. (1971): “Analysing qualitative data”. Harmondsworth: Penguin
Books, 1970.
•
O’BRIEN, L.G. (1989): “The statistical anlysis of contingency table designs”.
Newcastle Upon Tyne: Newcastle University.
•
RUÍZ-MAYA, L. (1990): “Metodología Estadística para el Análisis de Datos
Cualitativos”. Centro de estudios Sociológicos. Madrid.
•
SÁNCHEZ CARRIÓN, J.J. (1984): “Análisis de tablas de contingencia”. Colección
monografías nº 105. CIS.
•
SPSS. “Crosstabulation and measures of association, Cap. 10, Statistics Guide”.
•
UPTON, GRAHAM, J.G. (1978): “The analysis of cross-tabulated data”. John Wiley
Cop.
II.2.- ANÁLISIS DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA.
•
COCHRAN, W.G. (1976): “Analysis of Covariance: Its nature and uses”. Biometrics,
Vol. 13.
•
ELLEN R. GIRDEN. (1992): “ANOVA. Repeated Measures”. SAGE University
Paper.
•
GIRDEN, E. (1992): Anova: repeated measures”. Newbury Park, 1992-VI.
•
INVERSEN, G.R. y NORPORTH, H. “Analysis of Variance”. Quantitative
Applications in the Social Sciences Nº 1. A Sage University Paper Series.
•
RUÍZ-MAYA. (1986): “Métodos Estadísticos de Investigación”. I.N.E.
•
RUPERT G. MILLER, JR. (1985): “Beyond ANOVA, basics of applied statistics”.
John Wiley & Sons.
•
WILDT, A.R. y ATHOLA, O. (1978) “Analysis of Covariance”. Quantitative
Applications in the Social Sciences. A Sage University Paper Series.
II.3.- ANÁLISIS DISCRIMINANTE.
•
CUADRAS,
ABELLANO.
(1973):
“Análisis
Estadístico
Multivariante.
Representación Canónica de Funciones”. Resumen de tésis. V.A. Barcelona.
•
PETER A. LACHEMBRUCH. (1975): “Discriminant analysis”. Hoguer Press.
•
VISAUTA VINACUA, B. (1997): “SPSS para Windows”. McGraw-Hill.
•
WILLIAM R. KLECKA. (1976): “Discriminant analysis”. Series: Quantitative
Applications in the Social Sciencies.
II.4.- MODELOS DE ELECCIÓN DISCRETA: LOGIT Y PROBIT.
•
ANDERSON, SIMON P.; ANDRE; THISSE, JACQUES FRANCOIS. (1992):
“Discrete choice theory of product differentiation”. Cambridge and London: MIT Press,
pag. XVIII, 423.
•
BESANKO D., PERRY M.K. and SPADY R.H. (1990): “The logical model of
monopolistic competition: brand diversity”. The Journal of Industrial Econmics, Vol.
38, nº 4 June.
•
GRACIA DIEZ, M. (1988): “Modelos con variable dependiente cualitativa y de
variación limitada”. Cuadernos económicos, ICE, número 39, 1988/2.
•
GRACIA DÍEZ, M. (1991): “A Qualitative Analysis of Unemployment in Spain”.
Universidad Complutense de Madrid, pag. 159-73.
•
JOHNSTON, J. (1989): “Métodos de econometría”. Ed. Vicens Vives, Barcelona.
•
JUDGE G. (1980): “The theory and practice of econometrics”. Jhon Wiley and sons,
New York.
•
LEHRER, EVELYN L. (1992): “The impact of Children on Married Women´s Labor
Supply: Black-White Differentials Revisited”. Journal of Human Resources; 27 (3),
pag. 422-44.
•
Micro TSP, User´s Manual. (1986) Mc Graw Hill.
•
MILLÁN J.A., RUIZ P. (1987): “Modelos logit de adopción de innovaciones en
invernaderos de Almería”. Investigación agraria, 2 (2).
•
NOREEN, E. (1988): “An empirical comparison of probit and OLS Regression
hypothesis tests”. Journal of accounting research. Vol. 26, Nº 1 Spring, USA.
•
NOVALES, A. (1988): “Econometría”. McGraw Hill, Madrid.
•
RODRÍGUEZ GUTIERREZ, CÉSAR. (1992): “La adquisición de capital humano: Un
modelo teórico y su contrastación”. Investigaciones Económicas. 16 (2). Pág. 305-16.
•
TIM FUTING LIAO. (1988): “Interpreting probability model. Logit, Probit and other
generalizad Linear Models”. Series: Cuantitative Applications in the Social Sciences. A
Sage University papers series.
•
VICÉNS, J. (1995): “Modelos con variables cualitativas dicotómicas”. (Nov. 1995).
Instituto L.R.Klein.
II.5.- CORRELACIÓN CANÓNICA.
•
LEVINE. (1977): “Canonical Analysis and Factor Composition”. Beverly Hills: Sage
Publications. Sage University Papers.
II.6.- COMPONENTES PRINCIPALES Y ANÁLISIS FACTORIAL.
•
APARICIO PÉREZ F. (1988): “La difícil realización de un análisis de componentes
principales mediante los programas estadísticos más difundidos en el mercado”.
Estadística española, Vol. 30, nº 117, Madrid.
•
BATISTA FOQUET Y MARTÍNEZ ARIAS. (1989): “Análisis multivariante. Análisis
en componentes principales”. Colección ESADE. Editorial Hispano Europea, S.A.
pp.49-54.
•
HARMAN, HARRY. (1976): “Modern factor analysis”. Chicago University Press.
•
HARMAN, HARRY. (1980): “Análisis Factorial Moderno”. Editorial Saltés.
•
HOTTELING, H. (1993): “Analysis of a Complex of Statistical Variables into
Principal Components”. J. Educ. Psycology, nº 24.
•
JÖRESKOG, K.G., KLOVAN, J.E., REYMENT, R.A. (1976): “Geological Factor
Analysis”. Elsevier Scient. Pub. Co.
•
KIM JAE-ON y MUELLER, CHARLES. (1978): “Factor analysis, Statistical Methods
and Practical Issues. Sage University Paper.
•
KIM JAE-ON y MUELLER, CHARLES. (1978): “Introduction to factor analysis”.
Sage University Paper.
•
MARTÍN REYES, G. (1978): “Algunos métodos multivariantes y sus apllicaciones en
economía”. Cuadernos de CC. Económicas y Empresariales, nº 2, Universidad de
Málaga.
•
NARVAIZA SOLÍS, J.L. (1981): “El análisis Factorial: Exposición Gráfica e
Intuitiva”. Boletín de Estudios Económicos, nº 36 (113), Deusto, 1981, 259-285.
•
PEARSON, K. (1901): “On Lines and Planes of Closest Fit to Systems of Points in
Space”. Phil. Magasine, Ser. 6, 2.
•
SPEARMAN, C. (1904): “General Intelligence Objetively Determined and Measured”.
American Journal of Psycology, nº 15.
•
THURSTONE, L.L. (1931): “Multiple Factor Analysis”. Psychol. Rev., nº 38, 1931,
406.
II.7.- ANÁLISIS CLUSTER.
•
ALDENDERFER, M.S. Y R.K. BLASHFIELD. (1984): “Cluster Analysis”. A Sage
University Paper, Series: Quantitative Aplications in the Social Sciences. Nº 07-044.
•
ANDERBERG, M.R. (1973): “Cluster Analysis for Applications”. Academic Press,
New York.
•
BOGGIS, J.G. y J. HELD. (1971): “Cluster Analysis. A New Tool in Electricity”.
Journal of the Market Research Society (England), 13. Abril, 1971, pp. 49-68.
•
DAY, N.E. y R.M. HEELER. (1971): “Using Cluster Analysis to Improve Marketing
Experiments”. Journal of Marketing Research, 8. Agosto, 1971, pp. 340-47.
•
EVERITT, B.S. (1978): “Graphical Techniques for Multivariate Data”. London:
Heineman Educational.
•
EVERITT, B.S. (1993): “Cluster Analysis”. Tercera Edición. Edward Arnold. A
division of Hodder & Stoughton.
•
JAIN, A.K. y R.C. DUBES. (1988): “Algorithms for Clustering Data” Prentice Hall,
Englewood Clidd, N.J. USA.
•
JAMBU, M. (1983): “Cluster Anlysis and Date Analysis”. Amsterdam: North-Holland.
•
JARDINE, N. y R. SIBSON. (1971): “Mathematical Taxonomy”, John Wiley & Sons,
Chichester.
•
RAO, C.R. (1952): “Advanced Statistical Methods in Biometrics Research”. John
Wiley & Sons, New York.
•
ROMESBURG, H.CH. (1984): “Cluster Analysis for Research”. Belmont, Calif:
Lifetime Learning Publications.
•
TRYON, R.C.- DANIEL, E.B. (1970):
Company. N.Y.
“Cluster Analysis”. MC. Graw Book
•
SOKAL, R.R. y P.H.A. SNEATH. (1973): “Numerical Taxonomy”. W.H. Freeman &
Co. San Francisco.
•
WARD, Jr. J.H.; HOOK, M.R. (1963): “Aplication of Hierachical Grouping Procedure
to a Problem of Grouping Profiles”. Educ and Psychology Measurement 23, nº 1 Págs.
69-82.
II.8.- ANÁLISIS CONJUNTO.
•
GIL LUEZAS,C. (1985): “Una aplicación del análisis conjunto a la segmentación de
mercado: la segmentación componencial”. Investigación y Marketing.
•
GREEN, P.E. and YORAM WIND. (1975): “New away to measure consumers
judgements”. Harward Business Review (Julu-August 1975).
•
GREEN, P.E. and V. SRINIVASAN. (1978): “Conjoint analysis in consumer research:
issues and outlook”. Journal of consumer research. (September 1978).
•
GREEN, P.E. (1990): “Conjoint Analysis in Marketing: new development With
Implications for Research an Practice”. Journal of Marketing, Octubre 1990.
•
HELSEN, K., SHANDLER, B. Y GREEN, P. (1988): “Conjoint Internal Validity
Under Alternative Profile Presentations”. Journal of Consumer Research, Vol. 5.
•
KRIEGER A. Y GREEN, P. (1990): “Segmenying Markets With Conjoint Analysis”.
Journal of Marketing. Vol. 55.
•
MARTÍN DÁVILA, M. (1987): “Como diagnosticar lo que los consumidores desean
realmente: El análisis conjunto”. (Marzo 1987).
•
MÚGICA GRIJALBA, J.A. (1989): “Los modelos multiatributo en marketing. El
análisis conjunto”. IPMARK (nº 324/16-28 Febrero 1989).
•
MÚGICA GRIJALBA, J.M. (1989): “El análisis conjunto”. IPMARK.
•
MÚGICA GRIJALBA, J.M. (1989): “El análisis conjunto (y II). Alternativas,
nº 324.
problemas y limitaciones”. IPMARK (nº 326/16-31 Febrero 1989).
•
RIVERO, P. Y FERNÁNDEZ, R. (1993): “Análisis de variables cualitativas: Modelos
LOGIT y PROBIT”, Universidad Autónoma de Madrid.
•
VARELA GONZÁLEZ, J.A. (1985): “El análisis conjunto, una técnica al servicio de
la investigación comercial”. Economía y Empresa.
•
WITTINK, D. Y CATTIN, P. (1981): “Alternative Estimation Methods for Conjoint
Analysis: A Monte Carlo Study”. Journal of Marketing Research, Vol XVIII.
Descargar