Rafael González- Iglesias Universidad de Valladolid 1 Asignatura

Anuncio
Rafael González- Iglesias
Universidad de Valladolid
Rafael González- Iglesias
1
Asignatura
Profesor
MODELOS ESTADÍSTICOS MULTIVARIANTES
Valentín González de Garibay
Rafael González- Iglesias
Universidad de Valladolid
CONTENIDO
Contenido ........................................................................................................................................ 2
1.
DESCRIPCIÓN ............................................................................................................................... 3
2.
ANÁLISIS DE CORRESPONDENCIAS.............................................................................................. 5
2.1
ANÁLISIS DE LOS VALORES PROPIOS ................................................................................... 5
2.2
ANÁLISIS DE LOS EJES FACTORIALES ................................................................................... 6
2.3
CLASIFICACIÓN .................................................................................................................... 9
2.4
DESCRIPCIÓN DE LAS PARTICIONES .................................................................................. 10
Clase1: ....................................................................................................................................... 10
Clase2: ....................................................................................................................................... 11
Clase 3 y 4 .................................................................................................................................. 11
Clase 5 ....................................................................................................................................... 12
3.
2
Conclusión ................................................................................................................................. 13
Rafael González- Iglesias
Universidad de Valladolid
ARRESTOS 2011
1. DESCRIPCIÓN
Se quiere hacer un análisis de correspondencias sobre los arrestos ocurridos en Estados
Unidos en 2011 por cada estado. El tratamiento de datos se hace a partir de los arrestos
totales ocurridos durante el año, catalogados por la razón del arresto. Los datos se
obtuvieron de la página web del FBI.
Los datos hacen referencia a los 48 estados resultantes de eliminar del modelo Florida
y el distrito de Columbia, por ausencias en varias de las causas del arresto :




Alabama
Alaska
…
Wyoming
(AL)
(AK)
(WY)
De los 28 tipos de causa de arresto se eliminó “Suspicion”, “Embezzlement” y
“Drunkenness” por tener una aplicación muy variable dependiendo del estado. Las
posibles causas varían desde el asesinato, a la violación de las leyes del juego, pasando
por vandalismo, conducir bajo la influencia del alcohol, etc.
Además existen varias causas que el gobierno estadounidense considera agrupables.
Gracias al análisis de correspondencias puede analizarse si esta agrupación responde
sólo a un criterio moral o judicial, o si por otro lado las frecuencias de estas causas son
idénticas y pueden considerarse agrupables sin perder información interesante sobre el
comportamiento general de los arrestos en los estados. Las causas agrupadas y sus
agrupaciones son:


Crimen Violento (VCE):
Asesinato con y sin alevosía (MNM), violación forzada (FRE), robo con
intimidación (ROY) y asalto con agravantes (AAT).
Delito contra la Propiedad (PCE):
Allanamiento (BUY), apropiación indebida (LTT), robo de vehículo a
motor (MVT) y incendio provocado (ARN).
* Todas las traducciones de los delitos son propias.
El comportamiento de los perfiles de los estados y de las distintas causas o delitos es el
siguiente:
3
Rafael González- Iglesias
Universidad de Valladolid
0.6
Perfiles de los estados
AL
0.5
AK
AZ
0.4
AR
CA
0.3
CO
0.2
CT
DE
0.1
GA
0
ID
IL
0.4
Perfiles de los delitos
0.35
MNM
FRE
0.3
ROY
0.25
AAT
0.2
BUY
0.15
LTT
0.1
MVT
0.05
ARN
0
OAS
AL
4
AZ
CA
CT
GA
IL
IA
KY
ME MA MN MO
NE
NH NM
NC
OH
OR
RI
SD
TX
VT
WA
WI
Rafael González- Iglesias
Universidad de Valladolid
En rojo punteado está marcado el comportamiento medio.
En los estados se aprecia variabilidad entre el comportamiento medio y los
comportamientos de cada estado, ajustándose todos a un patrón general mientras que
en los perfiles de los delitos se ven muchos picos que despuntan en ciertos estados,
como por ejemplo en Ilinios (IL) donde el juego (GAM) tiene una proporción mucho
mayor que el resto de los delitos.
2. ANÁLISIS DE CORRESPONDENCIAS
2.1
ANÁLISIS DE LOS VALORES PROPIOS
Al plantearse realizar un análisis de correspondencias el primer paso es evaluar el
contraste de homogeneidad de perfiles. Si el contraste no rechaza la igualdad de
perfiles no tendría sentido el análisis. El valor obtenido para la suma de los valores
propios λ, es decir la inercia total de la nube es: 0.1590.
El contraste evalúa:
→
(n 1)( 1)
Siendo k el tamaño total de la población (9100511), n el número de estados (48) y p el
número de causas (25). El orden del estadístico observado es más de mil veces mayor a
los grados de libertad de la distribución de contraste. El resultado del test es 0.
Los valores propios obtenidos por el programa SPAD son:
5
Rafael González- Iglesias
Universidad de Valladolid
A partir del tercer eje los valores propios representan menos de un 10% de la
variabilidad, pero el porcentaje acumulado de los 3 primeros ejes no supera el 63% por
lo que se considera el análisis de por lo menos los 6 primeros ejes, que tienen un
porcentaje acumulado de 81,88%.
2.2
ANÁLISIS DE LOS EJES FACTORIALES
Primero se analiza que causas son las principales responsables en la aparición de los
primeros ejes factoriales:



En el primer eje factorial las mayores contribuciones vienen de las leyes
del licor 32.4% (LLW) y de alteración del orden público 27.2% (DCT). El
resto de delitos tienen todos contribuciones menores al 10%.
En el segundo eje factorial las mayores contribuciones vienen de “todas
las demás ofensas” 39,0% (AOO), y en menor medida de abuso del
consumo de drogas 13,5% (DRV). El resto de los delitos tienen
contribuciones menores al 10%.
En el tercer eje factorial las mayores contribuciones vienen de asalto con
agravantes 10,9% (AAT), el juego 13,31% (GAM), las leyes del licor 23.3%
(LLW) y alteración del orden público 17.62% (DCT).
En general el delito con la mayor distancia al origen es el juego (GAM).
Por otro lado se tiene la contribución relativa a la aparición de los ejes factoriales de los
puntos estado:



En el primer eje el estado con mayor contribución es California 32.17%
(CA) mientras que los siguientes son Pennsylvania y Winsconsin con
menos de un 15%.
En el segundo eje factorial está de nuevo California y Pennsylvania con
un aporte conjunto del 33% e Ilinois (IL) con un 15,96%.
En el tercer eje vuelven a ser California e Ilinois (18,68% y 29,19%
respectivamente).
En cuanto a los puntos estado se aprecia la influencia de los estados de Ilinois y
California en los que ya se apreciaba una fuerte variabilidad en la gráfica de los perfiles
de los delitos. Los estados con las mayores distancias al origen son Detroit, Ilinois y en
menor medida Dakota del Sur y del Norte, y Montana.
En la siguiente gráfica se representan los puntos estado y delito para los primeros ejes
factoriales obtenidos:
6
Rafael González- Iglesias
Universidad de Valladolid
En el gráfico se ven varios detalles que pueden ser remarcados.
Se observan varios estados muy cercanos en el plano factorial y que tienen una buena
calidad de representación. Por un lado se tiene a Idaho (ID) y Colorado (CO). Por otro
se tiene a Iowa (IA) y Arizona (AZ). Sería razonable pensar que estos estados tienen
perfiles similares entre sí, aunque dada la calidad de representación del primer plano
factorial (51.57%) las semejanzas entre miembros de una clase será sólo parcial.
En cuanto a los estados más extremos se tiene por un lado a Montana (MT) con Dakota
del sur (SD) de los que se puede esperar que tengan una mayor proporción de
detenidos por violación de las leyes del alcohol (LLW) y de desorden público (DCT) que
la media, y una menor proporción de prostitución (PRO) y asalto con agravante (AAT).
En contraposición está el estado de California, del que se puede esperar que tenga una
proporción de detenidos por prostitución y asalto con agravante muy superior a la
media, e inferior en cuanto a los delitos de desorden público y violación de las leyes del
alcohol.
En rojo están marcados los delitos que el gobierno estadounidense agrupa en crímenes
violentos. Tres de ellos están relativamente cercanos en el 2º cuadrante, mientras que
el único que no lo está, está muy mal representado, por lo que a pesar de no ser todos
cercanos es posible que tengan perfiles similares.
7
Rafael González- Iglesias
Universidad de Valladolid
En verde están marcados los delitos que se agrupan en delitos contra la propiedad. En
este caso la distancia que tienen los delitos entre sí es mayor.
Por último es remarcable el hecho de que en el segundo cuadrante parecen agruparse
la mayoría de los delitos (12 y entre ellos 3 de los 4 considerados violentos) mientras
que sólo 4 estados están representados, siendo California el mejor representado 83,1%.
La variable que está más alta en el plano factorial es el juego (GAM) que es muy
influyente y tiene siempre posiciones extremas en todos los gráficos.
También hay algunas clases muy próximas entre sí, como por ejemplo posesión de
armas (WEA) y allanamiento (BUY), esto significa que ambas tienen perfiles muy
similares, el comportamiento de los estados en cada una de ellas es muy parecido:
0.25
0.2
BUY
WEA
0.15
0.1
0.05
0
AL AZ CA CT GA IL IA KY ME MA MN MO NE NH NM NC OH OR RI SD TX VT WA WI
En menor medida se observa también una cercanía llamativa entre las variables robo
con intimidación (ROY) y robo de vehículo a motor.
0.25
0.2
0.15
ROY
MVT
0.1
0.05
0
AL AZ CA CT GA IL IA KY ME MA MN MO NE NH NM NC OH OR RI SD TX VT WA WI
8
Rafael González- Iglesias
2.3
Universidad de Valladolid
CLASIFICACIÓN
A partir del dendograma es posible hacerse una idea de cómo y cuantos grupos podría
ser conveniente utilizar para clasificar los estados.
Cla s s if ic a t io n h ié r a r c h iq u e d ir e c t e
A L W AM OO KM ENH K S I N M I NC A K NM W YI D CO NV A R T N V A W VT X M DK Y M SNJ NY DE RI CT M AL A V T O HS C G AI L CA P A W I UT A Z I A O RM TM NNE ND S D
En el dendograma se puede apreciar que hay varias posibilidades razonables de
clasificación de los estados. Por un lado se aprecia que el estado de California forma
una clase en sí misma desde el corte en 3 grupos. También se ve que Ilinois en menor
medida provoca un suceso similar en el corte en 5 grupos.
Estos dos estados son muy atípicos en el modelo.
9
Rafael González- Iglesias
2.4
Universidad de Valladolid
DESCRIPCIÓN DE LAS PARTICIONES
Tras aplicar un método automático de búsqueda de las 2 mejores particiones se llega a
2 distintos resultados, partición en 5 clases y en 7 clases.
La distribución esquemática de cada una puede verse en los dos siguientes gráficos:
En ambos se ve que Florida y el Distrito de Columbia no están pintados. También se
aprecia que California (negro) e Ilinois (Azul) conforman clases en sí mismas.
En la partición del corte en 5 clases cada clase se distingue por:
Clase1: proporciones muy superiores a la media en delitos contra la familia y niños
(OFC), todas las demás ofensas (AOO), fraude (FRE) y en menor medida asaltos leves
(OAS). Por otro lado tienen una proporción de detenciones muy inferior a la media en
desorden público (DCT), asalto con agravantes (AAT), vandalismo (VAN), abuso de
drogas (DCT) y en menor medida de todos los demás delitos.
10
Rafael González- Iglesias
Universidad de Valladolid
0.6
Clase1
0.5
AK
AR
0.4
CO
CLV
AOO
VAG
DCT
LLW
DIA
OFC
GAM
DRV
OFX
PRO
WEA
VAN
DRP
FRD
FCF
OAS
ARN
KY
MVT
0
LTT
KS
BUY
0.1
AAT
IN
ROY
0.2
FRE
ID
MNM
0.3
ME
Clase2: Proporciones muy altas de asaltos leves (OAS) y desorden público (DCT) y
especialmente bajas de todas las demás ofensas (categoría, AOO), y en delitos por
violación de las leyes de la lotería (CLV). En general es una clase media en cuanto a que
tiene prácticamente la mitad de los delitos en los que es superior a la media y la otra
mitad inferior proporcionalemnte.
0.4
Clase 2
0.35
AL
CT
0.3
DE
0.25
GA
0.2
LA
0.15
MA
0.1
NY
0.05
OH
0
CLV
AOO
VAG
DCT
LLW
DIA
OFC
GAM
DRV
OFX
PRO
WEA
VAN
DRP
FRD
FCF
OAS
ARN
MVT
LTT
BUY
AAT
ROY
FRE
MNM
RI
Clase 3 y 4 son estados independientes formando una clase en sí mismos, es decir,
tienen un comportamiento tan atípico que sus perfiles no son fácilmente agrupables en
otras clases.
California se caracateriza por tener proporciones muy superiores a la media en el abuso
del consumo de drogas (DRV) y juego (GAM), y por proporciones muy inferiores de
todas las demás ofensas (AOO) y conducir bajo la influencia del alcohol (DRV).
Ilinois en cambio tiene proporciones muy superiores a la media en asalto con
agravantes (AAT), allanamiento (BUY), conducir bajo la influencia del alcohol (DRV),
posesión de armas (WEA) y especialmente bajas en desorden público (DCT), violación
de las leyes del alcohol (LLW), delitos contra la familia y los niños (OFC), apropiación
indebida (LTT) y otros asaltos.
11
SC
Rafael González- Iglesias
0.35
Universidad de Valladolid
Clases 3 y 4
0.3
0.25
0.2
CA
0.15
IL
0.1
TC
0.05
0
Clase 5: Proporciones muy elevadas de violación de las leyes del alcohol (LLW),
desorden público (DCT) y en delitos por violación de las leyes de la lotería (CLV), y
especialmente bajas en todas las demás ofensas (AOO).
0.4
Clase 5
0.35
AZ
IA
0.3
0.25
MN
0.2
MT
0.15
NE
0.1
ND
0.05
OR
0
PA
La partición en 7 clases sólo aporta ligeros cambios, por un lado separa el estado de
Pennsylvania de la clase 5 y en la clase 1 se separan 3 estados. En la siguiente gráfica
puede verse el comportamiento medio de los estados de la clase 1 sin los 3 estados
separados en la segunda partición (azul claro) y los perfiles de los tres estados:
0.5
0.4
TC1
KS
MS
NJ
0.3
0.2
0.1
0
12
Rafael González- Iglesias
Universidad de Valladolid
3. Conclusión
Se ha observado un conjunto de datos muy rico en información, de grupos
heterogéneos y con casos atípicos, con suficiente material como para extender y
revaluar el trabajo.
Por un lado se ha encontrado el problema de la disparidad en las fuentes de
información que ha obligado a eliminar dos estados del modelo.
Por otro las características propias de los datos hacen que la decisión de tener en
cuenta una variable se convierta en otro trabajo añadido al problema, ya que la
idiosincrasia de la sociedad estadounidense provoca diferencias muy grandes en la
aplicación de ciertas leyes. Por ejemplo, antes de comenzar a analizar el modelo se
excluyó de él tres variables por no aplicarse de forma muy similar entre los estados, y
posteriormente se observó que la variable juego también podría tener el mismo
problema.
El análisis de correspondencias produjo una separación en 5 clases en la que es
importante destacar que California e Ilinois son estados con comportamientos en sus
arrestos muy diferentes al resto de estados.
Un posterior análisis podría consistir en estudiar qué cambios produce eliminar del
modelo estos dos estados y la variable juego (GAM) que también contribuye en gran
medida en la complejidad del análisis.
13
Descargar