Rafael González- Iglesias Universidad de Valladolid Rafael González- Iglesias 1 Asignatura Profesor MODELOS ESTADÍSTICOS MULTIVARIANTES Valentín González de Garibay Rafael González- Iglesias Universidad de Valladolid CONTENIDO Contenido ........................................................................................................................................ 2 1. DESCRIPCIÓN ............................................................................................................................... 3 2. ANÁLISIS DE CORRESPONDENCIAS.............................................................................................. 5 2.1 ANÁLISIS DE LOS VALORES PROPIOS ................................................................................... 5 2.2 ANÁLISIS DE LOS EJES FACTORIALES ................................................................................... 6 2.3 CLASIFICACIÓN .................................................................................................................... 9 2.4 DESCRIPCIÓN DE LAS PARTICIONES .................................................................................. 10 Clase1: ....................................................................................................................................... 10 Clase2: ....................................................................................................................................... 11 Clase 3 y 4 .................................................................................................................................. 11 Clase 5 ....................................................................................................................................... 12 3. 2 Conclusión ................................................................................................................................. 13 Rafael González- Iglesias Universidad de Valladolid ARRESTOS 2011 1. DESCRIPCIÓN Se quiere hacer un análisis de correspondencias sobre los arrestos ocurridos en Estados Unidos en 2011 por cada estado. El tratamiento de datos se hace a partir de los arrestos totales ocurridos durante el año, catalogados por la razón del arresto. Los datos se obtuvieron de la página web del FBI. Los datos hacen referencia a los 48 estados resultantes de eliminar del modelo Florida y el distrito de Columbia, por ausencias en varias de las causas del arresto : Alabama Alaska … Wyoming (AL) (AK) (WY) De los 28 tipos de causa de arresto se eliminó “Suspicion”, “Embezzlement” y “Drunkenness” por tener una aplicación muy variable dependiendo del estado. Las posibles causas varían desde el asesinato, a la violación de las leyes del juego, pasando por vandalismo, conducir bajo la influencia del alcohol, etc. Además existen varias causas que el gobierno estadounidense considera agrupables. Gracias al análisis de correspondencias puede analizarse si esta agrupación responde sólo a un criterio moral o judicial, o si por otro lado las frecuencias de estas causas son idénticas y pueden considerarse agrupables sin perder información interesante sobre el comportamiento general de los arrestos en los estados. Las causas agrupadas y sus agrupaciones son: Crimen Violento (VCE): Asesinato con y sin alevosía (MNM), violación forzada (FRE), robo con intimidación (ROY) y asalto con agravantes (AAT). Delito contra la Propiedad (PCE): Allanamiento (BUY), apropiación indebida (LTT), robo de vehículo a motor (MVT) y incendio provocado (ARN). * Todas las traducciones de los delitos son propias. El comportamiento de los perfiles de los estados y de las distintas causas o delitos es el siguiente: 3 Rafael González- Iglesias Universidad de Valladolid 0.6 Perfiles de los estados AL 0.5 AK AZ 0.4 AR CA 0.3 CO 0.2 CT DE 0.1 GA 0 ID IL 0.4 Perfiles de los delitos 0.35 MNM FRE 0.3 ROY 0.25 AAT 0.2 BUY 0.15 LTT 0.1 MVT 0.05 ARN 0 OAS AL 4 AZ CA CT GA IL IA KY ME MA MN MO NE NH NM NC OH OR RI SD TX VT WA WI Rafael González- Iglesias Universidad de Valladolid En rojo punteado está marcado el comportamiento medio. En los estados se aprecia variabilidad entre el comportamiento medio y los comportamientos de cada estado, ajustándose todos a un patrón general mientras que en los perfiles de los delitos se ven muchos picos que despuntan en ciertos estados, como por ejemplo en Ilinios (IL) donde el juego (GAM) tiene una proporción mucho mayor que el resto de los delitos. 2. ANÁLISIS DE CORRESPONDENCIAS 2.1 ANÁLISIS DE LOS VALORES PROPIOS Al plantearse realizar un análisis de correspondencias el primer paso es evaluar el contraste de homogeneidad de perfiles. Si el contraste no rechaza la igualdad de perfiles no tendría sentido el análisis. El valor obtenido para la suma de los valores propios λ, es decir la inercia total de la nube es: 0.1590. El contraste evalúa: → (n 1)( 1) Siendo k el tamaño total de la población (9100511), n el número de estados (48) y p el número de causas (25). El orden del estadístico observado es más de mil veces mayor a los grados de libertad de la distribución de contraste. El resultado del test es 0. Los valores propios obtenidos por el programa SPAD son: 5 Rafael González- Iglesias Universidad de Valladolid A partir del tercer eje los valores propios representan menos de un 10% de la variabilidad, pero el porcentaje acumulado de los 3 primeros ejes no supera el 63% por lo que se considera el análisis de por lo menos los 6 primeros ejes, que tienen un porcentaje acumulado de 81,88%. 2.2 ANÁLISIS DE LOS EJES FACTORIALES Primero se analiza que causas son las principales responsables en la aparición de los primeros ejes factoriales: En el primer eje factorial las mayores contribuciones vienen de las leyes del licor 32.4% (LLW) y de alteración del orden público 27.2% (DCT). El resto de delitos tienen todos contribuciones menores al 10%. En el segundo eje factorial las mayores contribuciones vienen de “todas las demás ofensas” 39,0% (AOO), y en menor medida de abuso del consumo de drogas 13,5% (DRV). El resto de los delitos tienen contribuciones menores al 10%. En el tercer eje factorial las mayores contribuciones vienen de asalto con agravantes 10,9% (AAT), el juego 13,31% (GAM), las leyes del licor 23.3% (LLW) y alteración del orden público 17.62% (DCT). En general el delito con la mayor distancia al origen es el juego (GAM). Por otro lado se tiene la contribución relativa a la aparición de los ejes factoriales de los puntos estado: En el primer eje el estado con mayor contribución es California 32.17% (CA) mientras que los siguientes son Pennsylvania y Winsconsin con menos de un 15%. En el segundo eje factorial está de nuevo California y Pennsylvania con un aporte conjunto del 33% e Ilinois (IL) con un 15,96%. En el tercer eje vuelven a ser California e Ilinois (18,68% y 29,19% respectivamente). En cuanto a los puntos estado se aprecia la influencia de los estados de Ilinois y California en los que ya se apreciaba una fuerte variabilidad en la gráfica de los perfiles de los delitos. Los estados con las mayores distancias al origen son Detroit, Ilinois y en menor medida Dakota del Sur y del Norte, y Montana. En la siguiente gráfica se representan los puntos estado y delito para los primeros ejes factoriales obtenidos: 6 Rafael González- Iglesias Universidad de Valladolid En el gráfico se ven varios detalles que pueden ser remarcados. Se observan varios estados muy cercanos en el plano factorial y que tienen una buena calidad de representación. Por un lado se tiene a Idaho (ID) y Colorado (CO). Por otro se tiene a Iowa (IA) y Arizona (AZ). Sería razonable pensar que estos estados tienen perfiles similares entre sí, aunque dada la calidad de representación del primer plano factorial (51.57%) las semejanzas entre miembros de una clase será sólo parcial. En cuanto a los estados más extremos se tiene por un lado a Montana (MT) con Dakota del sur (SD) de los que se puede esperar que tengan una mayor proporción de detenidos por violación de las leyes del alcohol (LLW) y de desorden público (DCT) que la media, y una menor proporción de prostitución (PRO) y asalto con agravante (AAT). En contraposición está el estado de California, del que se puede esperar que tenga una proporción de detenidos por prostitución y asalto con agravante muy superior a la media, e inferior en cuanto a los delitos de desorden público y violación de las leyes del alcohol. En rojo están marcados los delitos que el gobierno estadounidense agrupa en crímenes violentos. Tres de ellos están relativamente cercanos en el 2º cuadrante, mientras que el único que no lo está, está muy mal representado, por lo que a pesar de no ser todos cercanos es posible que tengan perfiles similares. 7 Rafael González- Iglesias Universidad de Valladolid En verde están marcados los delitos que se agrupan en delitos contra la propiedad. En este caso la distancia que tienen los delitos entre sí es mayor. Por último es remarcable el hecho de que en el segundo cuadrante parecen agruparse la mayoría de los delitos (12 y entre ellos 3 de los 4 considerados violentos) mientras que sólo 4 estados están representados, siendo California el mejor representado 83,1%. La variable que está más alta en el plano factorial es el juego (GAM) que es muy influyente y tiene siempre posiciones extremas en todos los gráficos. También hay algunas clases muy próximas entre sí, como por ejemplo posesión de armas (WEA) y allanamiento (BUY), esto significa que ambas tienen perfiles muy similares, el comportamiento de los estados en cada una de ellas es muy parecido: 0.25 0.2 BUY WEA 0.15 0.1 0.05 0 AL AZ CA CT GA IL IA KY ME MA MN MO NE NH NM NC OH OR RI SD TX VT WA WI En menor medida se observa también una cercanía llamativa entre las variables robo con intimidación (ROY) y robo de vehículo a motor. 0.25 0.2 0.15 ROY MVT 0.1 0.05 0 AL AZ CA CT GA IL IA KY ME MA MN MO NE NH NM NC OH OR RI SD TX VT WA WI 8 Rafael González- Iglesias 2.3 Universidad de Valladolid CLASIFICACIÓN A partir del dendograma es posible hacerse una idea de cómo y cuantos grupos podría ser conveniente utilizar para clasificar los estados. Cla s s if ic a t io n h ié r a r c h iq u e d ir e c t e A L W AM OO KM ENH K S I N M I NC A K NM W YI D CO NV A R T N V A W VT X M DK Y M SNJ NY DE RI CT M AL A V T O HS C G AI L CA P A W I UT A Z I A O RM TM NNE ND S D En el dendograma se puede apreciar que hay varias posibilidades razonables de clasificación de los estados. Por un lado se aprecia que el estado de California forma una clase en sí misma desde el corte en 3 grupos. También se ve que Ilinois en menor medida provoca un suceso similar en el corte en 5 grupos. Estos dos estados son muy atípicos en el modelo. 9 Rafael González- Iglesias 2.4 Universidad de Valladolid DESCRIPCIÓN DE LAS PARTICIONES Tras aplicar un método automático de búsqueda de las 2 mejores particiones se llega a 2 distintos resultados, partición en 5 clases y en 7 clases. La distribución esquemática de cada una puede verse en los dos siguientes gráficos: En ambos se ve que Florida y el Distrito de Columbia no están pintados. También se aprecia que California (negro) e Ilinois (Azul) conforman clases en sí mismas. En la partición del corte en 5 clases cada clase se distingue por: Clase1: proporciones muy superiores a la media en delitos contra la familia y niños (OFC), todas las demás ofensas (AOO), fraude (FRE) y en menor medida asaltos leves (OAS). Por otro lado tienen una proporción de detenciones muy inferior a la media en desorden público (DCT), asalto con agravantes (AAT), vandalismo (VAN), abuso de drogas (DCT) y en menor medida de todos los demás delitos. 10 Rafael González- Iglesias Universidad de Valladolid 0.6 Clase1 0.5 AK AR 0.4 CO CLV AOO VAG DCT LLW DIA OFC GAM DRV OFX PRO WEA VAN DRP FRD FCF OAS ARN KY MVT 0 LTT KS BUY 0.1 AAT IN ROY 0.2 FRE ID MNM 0.3 ME Clase2: Proporciones muy altas de asaltos leves (OAS) y desorden público (DCT) y especialmente bajas de todas las demás ofensas (categoría, AOO), y en delitos por violación de las leyes de la lotería (CLV). En general es una clase media en cuanto a que tiene prácticamente la mitad de los delitos en los que es superior a la media y la otra mitad inferior proporcionalemnte. 0.4 Clase 2 0.35 AL CT 0.3 DE 0.25 GA 0.2 LA 0.15 MA 0.1 NY 0.05 OH 0 CLV AOO VAG DCT LLW DIA OFC GAM DRV OFX PRO WEA VAN DRP FRD FCF OAS ARN MVT LTT BUY AAT ROY FRE MNM RI Clase 3 y 4 son estados independientes formando una clase en sí mismos, es decir, tienen un comportamiento tan atípico que sus perfiles no son fácilmente agrupables en otras clases. California se caracateriza por tener proporciones muy superiores a la media en el abuso del consumo de drogas (DRV) y juego (GAM), y por proporciones muy inferiores de todas las demás ofensas (AOO) y conducir bajo la influencia del alcohol (DRV). Ilinois en cambio tiene proporciones muy superiores a la media en asalto con agravantes (AAT), allanamiento (BUY), conducir bajo la influencia del alcohol (DRV), posesión de armas (WEA) y especialmente bajas en desorden público (DCT), violación de las leyes del alcohol (LLW), delitos contra la familia y los niños (OFC), apropiación indebida (LTT) y otros asaltos. 11 SC Rafael González- Iglesias 0.35 Universidad de Valladolid Clases 3 y 4 0.3 0.25 0.2 CA 0.15 IL 0.1 TC 0.05 0 Clase 5: Proporciones muy elevadas de violación de las leyes del alcohol (LLW), desorden público (DCT) y en delitos por violación de las leyes de la lotería (CLV), y especialmente bajas en todas las demás ofensas (AOO). 0.4 Clase 5 0.35 AZ IA 0.3 0.25 MN 0.2 MT 0.15 NE 0.1 ND 0.05 OR 0 PA La partición en 7 clases sólo aporta ligeros cambios, por un lado separa el estado de Pennsylvania de la clase 5 y en la clase 1 se separan 3 estados. En la siguiente gráfica puede verse el comportamiento medio de los estados de la clase 1 sin los 3 estados separados en la segunda partición (azul claro) y los perfiles de los tres estados: 0.5 0.4 TC1 KS MS NJ 0.3 0.2 0.1 0 12 Rafael González- Iglesias Universidad de Valladolid 3. Conclusión Se ha observado un conjunto de datos muy rico en información, de grupos heterogéneos y con casos atípicos, con suficiente material como para extender y revaluar el trabajo. Por un lado se ha encontrado el problema de la disparidad en las fuentes de información que ha obligado a eliminar dos estados del modelo. Por otro las características propias de los datos hacen que la decisión de tener en cuenta una variable se convierta en otro trabajo añadido al problema, ya que la idiosincrasia de la sociedad estadounidense provoca diferencias muy grandes en la aplicación de ciertas leyes. Por ejemplo, antes de comenzar a analizar el modelo se excluyó de él tres variables por no aplicarse de forma muy similar entre los estados, y posteriormente se observó que la variable juego también podría tener el mismo problema. El análisis de correspondencias produjo una separación en 5 clases en la que es importante destacar que California e Ilinois son estados con comportamientos en sus arrestos muy diferentes al resto de estados. Un posterior análisis podría consistir en estudiar qué cambios produce eliminar del modelo estos dos estados y la variable juego (GAM) que también contribuye en gran medida en la complejidad del análisis. 13