Análisis Multivariante Aplicado a la Investigacion.

Anuncio
ANALISIS MULTIVARIANTE
APLICADO A LA INVESTIGACIÓN
Octubre de 2010
Prólogo
Los seis capı́tulos del presente libro están dedicados a diferentes métodos
de Análisis Multivariante. Los dos primeros -Análisis de Componentes Principales y Análisis Factorial-, son métodos basados en la reducción del número
de variables a fin de simplificar y mejorar la interpretación de los datos.
Los tres siguientes -Análisis Discriminante, Regresión Logı́stica y Análisis
“Cluster”-, son métodos de clasificación. El 6 capı́tulo trata sobre el Gráfico de Control Multivariable que es una técnica que forma parte del Control
de Calidad.
El libro está dirigido a los investigadores que, en muy diversas ramas
de la Ciencia y de la Tecnologı́a, precisan tratar un volumen elevado de
datos y desean mejorar su potencial para simplificar, clasificar e interpretar
la información contenida en los mismos. Aunque el enfoque del libro es eminentemente práctico y se desarrolla mediante diez ejemplos de aplicación con
datos reales, se ha querido también incluir y explicar los principales fundamentos estadı́sticos y matemáticos en los que se basan los distintos métodos.
En la bibliografı́a recogemos algunas obras que pueden ayudar al lector que
lo desee en la ampliación y profundización de dichos fundamentos.
El presente trabajo, que es continuación y complemento de dos Manuales
anteriores -Estadı́stica Industrial (1990), dedicado al Control de Calidad, y
Estadı́stica Aplicada a la Investigación (2004), sobre Diseño de Experimentos-, está concebido para su utilización como Manual de consulta tras recibir
un Curso de duración variable según el nivel de conocimientos previos y
objetivos del destinatario. Es conveniente, para abordar con mayor facilidad
estos procedimientos, contar con conocimientos básicos de Análisis de Regresión y Cálculo Matricial, siendo imprescindible la utilización de un programa
informático. Nosotros, hemos realizado todos los cálculos de los ejemplos con
el programa estadı́stico STATGRAPHICS que venimos usando, a total
satisfacción, desde hace muchos años.
Finalmente, deseo expresar mi gratitud a los que nos han precedido en
el estudio y enseñanza de estas materias, con un especial recuerdo para D.
Antonio Fernández de Troconiz, Catedrático de Estadı́stica de la E.T.S. de
Ingenieros Industriales y de la Facultad de Ciencias Económicas de Bilbao.
Las Arenas, Octubre 2010
Alfonso Trigueros
Doctor Ingeniero Industrial
!
"
#$
$
%&
&&!'
& (
)*$
)*$
+
('
)*,+
-
$)*,+
(-!
)*.
'
)*'
$
.
!)*$.
!
!
.
)*!
"
#$
$
!
)*'.
)*.
$(
%&
$
$
(
%&
$)* .
&&!'
& Capı́tulo 1
ANÁLISIS DE
COMPONENTES
PRINCIPALES
El Análisis de Componentes Principales transmite la información contenida sobre “n” individuos en un conjunto de “p” variables
correlacionadas entre sı́ a un conjunto más sencillo con un menor
número (“k”) de variables incorreladas. De esta forma, mejora la
interpretación de los datos y la de los modelos construidos a partir
de ellos. En contrapartida , se pierde una pequeña parte de la información original. Las nuevas “k” variables, los Componentes Principales, son combinaciones lineales de las originales. Su método
de cálculo se fundamenta en la obtención, a partir de la matriz
de correlaciones de las variables originales, de los valores propios
(“eigenvalues”) y sus vectores propios (“eigenvectors”) que serán,
precisamente, los Componentes Principales. En el 1 de los ejemplos del Capı́tulo se reduce el n de variables de tres a dos que
contienen el 98 % de la Variabilidad. En el 2 ejemplo, el n de
variables se reduce de ocho a tres que cuentan con el 95 % de la Variabilidad original. El Análisis de Componentes Principales suele
utilizarse combinándolo con otro Análisis posterior. Por ejemplo,
con un Análisis de Regresión o con un Análisis “Cluster”.
Capı́tulo 2
ANÁLISIS FACTORIAL
El Análisis Factorial, a similitud del Análisis de Componentes
Principales, reduce el número de variables “p” medidas sobre un
conjunto de “n” individuos a un número menor (“k”) de variables
combinaciones lineales de las primitivas. Sin embargo, tiene la
particularidad de centrarse en la búsqueda e interpretación de las
nuevas variables considerándolas como variables latentes que subyacen como causa de las “p” variables originales medibles. En el
presente Capı́tulo se exponen dos métodos: El método de Componentes Principales y el método Clásico. En ambos, tras extraer las
“k” nuevas variables se procede a rotar los factores a fin de obtener
una solución con mayor significado conceptual. El Capı́tulo recoge
un ejemplo que, en su 1 parte, desarrolla por el método de Componentes Principales. Se trata de un caso con ocho variables originales que se reducen a dos aplicándoles después varios tipos de
rotación: Varimax, Quartimax y Equimax. En la 2 parte, el ejemplo desarrolla el método Clásico seguido de las rotaciones Varimax
y Quartimax.
Capı́tulo 3
ANÁLISIS DISCRIMINANTE
Dada una base inicial de datos con “n” individuos distribuı́dos
en “k” grupos y “p” variables predictoras, el Análisis Discriminante
permite asignar un nuevo individuo a uno de los “k” grupos según
el valor que adquiere la función discriminante L respecto de un
determinado valor (valor de corte). La función L es combinación
lineal de las “p” variables predictoras y sus coeficientes se calculan
de forma que el cociente B/W de la variabilidad de L entre grupos
(B) y la variabilidad dentro de los grupos (W) sea máximo. Como
en el Análisis de la Varianza (ANOVA), la suma de B y W es la
variabilidad total (T). La precisión del ajuste se cuantifica según
el valor del ratio B/W, con el estadı́stico de Wilks (W/T) y con
otros métodos. En el capı́tulo se presentan tres ejemplos, uno de
ellos para dos grupos (el caso más habitual) y los otros dos con
tres grupos y diferente número de variables predictoras.
Capı́tulo 4
REGRESIÓN LOGÍSTICA
El modelo de Regresión Logı́stica ajusta a una variable dependiente nominal y dicotómica (dos grupos), una ecuación de
tipo exponencial en función de las variables independientes predictoras. La ecuación expresa la probabilidad “P” de pertenencia
al grupo 1, siendo (1-P) la probabilidad de pertenencia al grupo
2. Dado su poder discriminante entre los dos grupos, la Regresión
Logı́stica constituye una alternativa con el mismo objetivo que el
Análisis Discriminante. Las variables predictoras se expresan en la
ecuación en forma de combinación lineal de la que hay que estimar
sus coeficientes. La estimación se realiza por el método de Máxima
Verosimilitud y no por Mı́nimos Cuadrados como en la Regresión
convencional. La utilización del ratio denominado “odds” = P/1-P
o su logaritmo natural, denominado “logit” simplifica el modelo de
Regresión Logı́stica.
Capı́tulo 5
ANÁLISIS “CLUSTER”
El Análisis “Cluster” tiene por finalidad clasificar en grupos
disjuntos “n” individuos de acuerdo con su similitud en relación
con “k” variables. Los individuos dentro de un mismo grupo deben
tener entre sı́ la mayor homogeneidad posible, siendo por el contrario grande la heterogeneidad entre individuos de distintos grupos. El criterio más habitual para cuantificar la similitud entre individuos es la distancia euclı́dea. Los elementos básicos del Análisis son la matriz de distancias y el dendograma. La matriz de
distancias, ajustable en cada etapa del Análisis, expresa las distancias entre individuos y grupos mientras que el dendograma es
un grafo con forma de árbol indicativo de cómo se ha llevado a
cabo el proceso de encadenamiento en las sucesivas etapas. El
análisis comienza con “n” grupos, que se van reduciendo por sucesivos encadenamientos que van uniendo entre sı́ los individuos y
grupos con la menor distancia, hasta llegar al número de grupos
final deseado.
Capı́tulo 6
GRÁFICO DE CONTROL
MULTIVARIABLE
El objeto del gráfico de Control Multivariable es el seguimiento
simultáneo de varias variables a través de un único gráfico de
Control. Este gráfico estudia la evolución del estadı́stico T 2 de
Hotelling. Dicho estadı́stico representa el cuadrado de la distancia
entre cada observación multivariable y el centroide definido por
los valores medios de las variables. En el cálculo de T 2 interviene
también la matriz de covarianzas de las variables. De especial interés es su aplicación al caso de dos variables. Entonces, los puntos
representativos de las observaciones bajo control quedan situados
dentro de la llamada elipse de control. Al final del ejemplo presentado se combina el Gráfico Multivariable con el Análisis de
Componentes Principales.
!"#$$%& '
(!)"*$$!+%
,-."#$$/%
011"*2/3%
4-)5
0116!)"*23*%
781197816!)"*2/%
:&0"*222%-:.
;.8,66< . "*2/3%-=;!>
<8,9<"#$$*%
& '
<8,9?9@ !"#$$*%
& '
,-A86"*2/3%1!
-:9-<8!)-:97B
6 96"#$$$%
<!)
=99"*22$%=
<!)6<7
=,A!C68"#$$@%=
94!#$*$
Descargar