1 Taller: Capitulo 3: Estadistica descriptiva multivariada Grupo 5 Melanie Bernal Malpica Juan Diego López Amado Andres Fernando Niño Viancha 2 1. ACP de “Whisky” Objetivo El objetivo es estudiar la relación calidad-precio de 35 marcas de whisky utilizando las variables precio (francos franceses), proporción de malta ( vejez (añejamiento en años) y apreciación (nota promedio de un panel de catadores redondeada a entera). Se dispone además de una variable nominal categorı́a, que clasica las marcas según su contenido de malta (1 = Bajo, 2 = Estándar, 3 = Puro malta) (Fine, 1996). ACP no normado ACP no normado 0 200 400 600 800 1000 Figura 1: Valores Propios Valor Propio Inercia Acumulada Proporción Acumulada( %) price malt aging taste V.Price 953.239 953.239 84.447 price 384.26 349.46 24.18 7.41 malt 349.46 736.58 26.90 8.54 V. Malt 169.350 1122.589 99.449 aging 24.18 26.90 6.53 0.91 V. Aigin 4.981 1127.570 99.891 ACP no taste 7.41 8.54 0.91 1.43 Matriz de Varianza y Covarianza ACP no normado V.Taste 1.235 1128.805 100.000 normado 3 ACP no normado 50 Factor 2: 169.3504 (15%) 30 24 25 26 29 0 34 33 35 −25 10 27 23 14 20 25 11 17 19 9 4 1 22 15 6 5 3 28 18 12 7 21 16 2 13 8 31 32 −50 0 Factor 1: 953.2389 (84.4%) Figura 2: Primer plano Factorial 4 d=5 price aging taste malt Figura 3: Correlacion Variables ACP no normado 5 ACP NORMADO ACP Whisky 0.0 0.5 1.0 1.5 2.0 2.5 Figura 4: Valores Propios Valor Propio Inercia Acumulada Proporción Acumulada( %) Ax1 Ax2 Ax3 Ax4 2.2333 0.8065 0.6295 0.3307 2.2333 3.0398 3.6693 4.0000 55.8317 75.9938 91.7315 100.0000 Inercia ACP Whisky (Normado) Eje 1 Eje 2 Price 32.98 % 6.84 % Malt 29.09 % 13.54 % Aging 23.58 % 0.05 % Taste 14.34 % 79.57 % Contribucion Absoluta ACP Whisky (Normado) 6 price malt aging taste Matriz price malt aging taste 3.50 2.30 1.69 1.10 2.30 3.50 1.36 0.92 1.69 1.36 3.50 1.04 1.10 0.92 1.04 3.50 de Varianzas y Covarianzas CS1 CS2 price -0.57 0.26 malt -0.54 0.37 aging -0.49 -0.02 taste -0.38 -0.89 Ejes principales 3 35 Factor 2: 0.8065 (20.2%) 2 9 10 1 7 30 6 22 32 12 19 17 25 23 21 18 24 15 11 8 27 4 3 2 28 26 14 5 1 13 20 33 34 0 29 31 −1 16 −2 −5.0 −2.5 0.0 2.5 Factor 1: 2.2333 (55.8%) Figura 5: Primer Plano Factorial low med pure Peso Cat wcat 0.31 0.49 0.20 Coordenadas Valores Test Coseno cuadrado Axis1 Axis2 Axis1 Axis2 Axis1 Axis2 1.35 0.12 3.56 0.52 0.98 0.01 0.02 -0.34 0.06 -2.14 0.00 0.70 -2.15 0.64 -4.20 2.07 0.83 0.07 Ayudas interpretacion variable Type (categorica) 7 4 3 35 Factor 2: 0.8065 (20.2%) 2 10 1 7 96 30 22 32 pure 12 3433 0 23 29 24 31 26 −1 27 med low25 17 19 18 21 15 4 11 28 14 5 13 82 3 1 20 16 −2 −4 −2 0 2 Factor 1: 2.2333 (55.8%) Figura 6: Variable Type (categórica) proyectada en el 1º Plano Factorial price malt aging taste Eje1 -0.85830 -0.80600 -0.72570 -0.56600 Eje2 0.23490 0.33040 -0.02000 -0.80110 Coordenadas de las variables en el circulo de correlaciones 8 malt price aging taste Figura 7: Circulo de Correlaciones 9 Cosenos cuadradros y Distancias al cuadrado Variables Axis1 Axis2 Acumulativo price -73.66 5.51 79.18 malt -64.96 10.91 75.88 aging -52.67 -0.04 52.71 taste -32.04 -64.17 96.21 Individuos 1 50.39 -23.89 74.276 2 84.10 -4.31 88.406 3 92.40 -7.55 99.947 4 7.60 -4.81 12.416 5 1.37 -46.03 47.405 6 70.14 22.52 92.657 7 66.57 30.93 97.502 8 78.53 -3.14 81.679 9 65.44 27.51 92.945 10 2.73 45.47 48.201 11 0.23 -1.31 1.546 12 83.35 10.53 93.876 13 41.92 -45.73 87.649 14 -13.22 -36.63 49.862 15 47.72 -2.53 50.248 16 -1.79 -90.29 92.096 17 51.33 3.33 54.664 18 94.75 0.002 94.752 19 53.79 3.28 57.075 20 -2.68 -79.97 82.666 21 78.52 -0.01 78.545 22 33.59 52.93 86.530 23 -14.67 0.67 15.358 24 -55.19 -4.68 59.887 25 34.50 0.57 35.080 26 -62.62 -20.11 82.734 27 -57.27 -14.78 72.068 28 -22.26 -32.99 55.265 29 -65.09 -0.02 65.115 30 -79.55 6.30 85.861 31 -69.91 -4.70 74.622 32 -44.53 15.85 60.383 33 -68.21 2.22 70.441 34 -78.47 1.98 80.456 35 -13.97 73.14 87.115 Tabla de ayuda para interpretación del ACP 10 Preguntas Realice primero un ACP no normado y luego un ACP normado y responda a las preguntas. 1. En el ACP no normado, analice la contribución de las variables a la inercia. ¿Realmente se puede considerar un análisis de las cuatro variables? Rta No es necesario considerar las 4 variables, puesto que cada variable contribuye con la inercia según su valor propio, en el ACP no normado podemos notar que se obtienen, qué los valores propios son mayores a 1, pero en la inercia acumulada con solo una variable se tiene un porcentaje de inercia del 84.44 y con la segunda variable se tiene el 99.45, cantidad suficiente para el primer plano factorial reteniendo solo dos ejes. 2. Analice la matriz de varianzas y covarianzas con la ayuda del primer plano factorial de las variables. Haga un resumen (interpretación del primer plano factorial de las variables). Rta Se encuentra que la mayor variacion se tiene entre el precio y la proporción de malta con un 2.3, lo cual se puede notar en el primer plano factorial por la dispersion que se tiene de los datos en el eje 1 donde se asocia el precio, añejamiento y proporcion de malta. La menor variacion la tenemos entre la apreciación y la proporcion de malta con un 0.92, además es de recalcar que la variacion de cada variable es igual en todas, lo cual se puede notar en el primer plano factorial como se tiene una homogeneidad de los marcas de whisky alrededor del centro, sin mostrar una inclinacion o alargamiento. 3. Realice el ACP normado y justifique por qué es el que conviene para los objetivos de este taller. Rta Dada la naturaleza de los datos de Whisky, obtenemos varinazas muy altas por la escala de medida, es asi que es necesario eliminar la influencia de las escalas de medida con el ACP normado y obtener un analisis mas optimo. 4. ¿Cuántos ejes retiene para el análisis? ¿Por qué? Rta Se escojen dos ejes, puesto que al ver los valores propios se encuentra que: el primero tienen como valor 2.23 y contribuye con el % 55.83 de la inercia; el segundo tiene como valor 0.8065 contribuyendo con % 20.16 de la inercia, aunque lo indicado es que se escojan los valores propios mayores a uno, tenemos que escogiendo tambien el segundo se tiene una inercia acumulada de % 75.99. Asi reduciendo la dimesion de los datos a dos ejes se concentran la mayor explicacion de los datos. 5. ¿Cuál es la variable que más contribuye al primer eje? ¿Cuál es la que menos? (indique los porcentajes). Rta Por la tabla de Contribucion Absoluta ACP Whisky (Normado), notamos que que la variable que más contribuye al primer eje es Price con un % 11 32.98 en contraste con la variable taste siendo la que menos contribuye con un % 14.34. 6. Según el cı́rculo de correlaciones, ¿cuáles son las variables más correlacionadas? ¿Cuánto es el valor de la correlación? ¿Sı́ corresponden a lo que se observa en la matriz de correlaciones? Rta Por el circulo de correlaciones, podemos observar que las variables Malt y Price estan agrupadas en el mismo cuadrante, lo cual nos indica que ellas tiene una mayor correlacion positiva entre ellas. Lo cual se comprueba cuando miramos la Matriz de correlaciones donde Malt y Price tiene una correlacion de 0.66, el valor mas alto. 7. ¿Cuál es la variable mejor representada en el primer plano factorial? ¿Cuál la peor? (Escriba los porcentajes). Rta La variable que mejor está representada en primer plano factorial es TASTE con un 96.21 % y la peor representada es AGING con un 52.71 % 8. ¿Qué representa el primer eje? ¿Qué nombre le asignarı́a? ¿Qué representa el segundo eje? Rta El primer eje representaria la calidad del Whisky puesto que se encuentran los valores mas altos del Aging, Price y Malta y el segundo eje representaria la sensacion o satisfacion del sabor del Whisky puesto que se encuentran los valores mas altos de taste. 9. ¿Cuál es el individuo mejor representado en el primer plano factorial? Ubique sobre el gráfico de individuos al peor representado sobre el primer plano factorial (indique los porcentajes). Rta El individuo mejor representado es el 3 con un 99.947 % y el peor representado es el individuo 11 con un 1.546 % 10. Supongamos que usted tiene una gráfica de individuos, donde no se muestran los antiguos ejes de las variables. ¿Cómo dibuja los ejes de apreciación y de precio? (Responda concretamente, es decir, con números). Rta Podemos utilizar como ayuda la tabla de los ejes principales acp$c1, dado que los antiguos ejes unitarios son una lectura de los valores propios filas. Entonces con una base canónica de dimensión 5 (número de variables de Whisky), podemos multiplicar para hallar los antiguos ejes de apreciación (Taste), su vector canonico transpuesto correspondiente: F1 (T aste) = et 5 ∗ u1 F1 (T aste) = −0,38 (1) F2 (T aste) = et 5 ∗ u2 F2 (T aste) = −0,89 12 Con esto tenemos las coordenadas unitarias de los antiguos ejes de Taste, con estas proyectamos el vector en el plano y asi obtenemos la direccion del eje de taste. De la misma forma hacemos para precio. F1 (P rice) = et 1 ∗ u1 F1 (P rice) = −0,57 (2) F2 (P rice) = et 1 ∗ u2 F2 (P rice) = 0,26 11. ¿Qué caracterı́sticas tienen las marcas de whisky según sus ubicaciones en el plano (a la derecha, a la izquierda, arriba, abajo)? Rta Con base en el primer plano factorial, las marcas de whisky que están a la izquierda son aquellas cuyas caracterı́sticas son altas, es decir, tienen precio alto, su proporción de malta es alta y mayor tiempo de añejamiento; a medida que se va hacia la derecha estas propiedades se reducen. Además la posición en la parte inferior del plano se relacionan con una buena nota de apreciación de los catadores, pero a medida que se mueve en dirección positiva del eje, la nota de apreciación disminuye. 12. ¿Qué significa el cı́rculo del primer plano factorial de variables? ¿Cómo lo dibujarı́a en una gráfica impresa donde no está? (Suponga que las escalas de los dos ejes son iguales). RtaEl circulo del primer plano factorial indica que tan representativas son las variables en el primer plano factorial, dado que entre más largo es el vector, es decir, entre más cerca este de la circunferencia, mejor es su representación en el plano factorial. Como el plano factorial se tiene los datos normados, se podria dibujar trazando una circunferencia de radio uno alrededor del origen. 13. A partir de la posición en el plano deduzca las caracterı́sticas de las tres categorı́as de whisky (bajo, estándar y pura malta). Rta Pure : La categoria Pure se caracteriza por contar con mayores indicadores en cuanto al precio, malta y añejamiento aunque no tiene buena calificacion por parte de los catadores. Puesto que esta categoria en cuanto a los Valores TEST tiene mayor peso en el eje 1. 13 Med : La categoria Med se caracteriza por tener las mejores apreciaciones por parte de los catadores, y no tiene precios altos de la misma forma en que no se caracteriza por tener muchos años de añejamiento. Puesto que en esta categoria se tienen que los Valores TEST nos arrojan mayor pero en el eje 2 y un poca participacion en el eje 1. Low :Esta categoria se caracteriza por no tener una buena calidad, bajo añejamiento y proporcion de malta aunque tiene los precios mas bajos. No tiene definida una orientacion respecto a al apreciacion de los catadores. Puesto que los Valores TEST en el eje 1 tiene un valor alto pero es inversamente proporcional a una buena calificacion; por otra parte tiene un valor bajo en la apreciacion, pero observando las marcas en el primer plano factorial se encuantra que la apreciacion varia en tener valores altos y bajos. Nota En los valores TEST se tiene en cuenta el signo basado en la orientacion que se definio en los dos ejes. 14. Supongamos que usted desea comprar una botella de whisky con buena apreciación y que no sea tan cara. Dé dos números de marcas que comprarı́a. ¿Por qué? ¿Cuáles son las caracterı́sticas de las dos marcas? Rta Escogerı́a las marcas 16 y 20, ya que estas estan mejor representadas en el eje 2 (Apreciación), es decir, tiene los valores más altos en la apreciacion, adémas estas marcas se encuentran centradas en el eje 1 lo cual nos indica que su precio no es alto. Asi tenemos que estas dos marcas a pesar de no tener un añejado precio alto, estan bien valoradas por los catadores. 15. Seleccione dos marcas que definitivamente no comprarı́a. ¿Por qué? ¿Qué caracterı́sticas tienen? Rta No escogerı́a las marcas 30 y 35, puesto que en primer lugar la marca 30 tiene el precio y añejamiento más alto pero no tiene una buena calificacion en la apreciacion. Por otro lado la marca 35 aunque es mas económica, tiene la peor calficacion en apresiación. Por tanto se tienen mejores opciones que complementan calidad, precio y apreciación. 16. Realice un resumen práctico del análisis suponiendo que lo va a entregar a una compañı́a que contrató el estudio. Debe dar respuesta al objetivo y apoyarse en las tablas y gráficas que crea necesarias. Rta Se realiza un ACP donde se trabaja con dos ejes que recogen la mayor parte de informacion de los datos. El primer eje del ACP nos indica la calidad del Whisky respecto a su precio, añejamiento y proporcion de malta; siendo el precio de las marcas quien pesa mas en este indicador. 14 Este eje nos muestra los mejores valores de iquierda a derecha. El segundo eje nos da un resumen de los indicadores de apreciación de cada marca teniendo las mejores calificaciones de los catadores de abajo hacia arriba. Se incluye en el plano una variable apreciativa TYPE () que nos muestra la proporcion de malta catalagoda como (puro, medio, bajo), se puede observar que las marcas de Whisky con proporsion de malta pura son de mejor calidad respecto a mayor añejamiento y precio pero no poseen gran puntuacion por parte de los catadores. Las marcas de Whisky con proporcion medio, se destacan alrededor de 7 marcas que tiene la mejor relacion entre calidad y apreciacion puesto que tienen buena aceptacion por los catadores y el precio no es elevado. Por último las marcas de Whisky de proporcion baja cuentan con calidad precio baja donde destacan algunas marcas en la apreciacin de los catadores. Se encuentra que existe una alta correlacion entre el precio y la malta en las marcas de Whisky, mientras que no se tiene una correlacion de la apreciacion con ninguna de las otras variables (precio, malta, añejado)