CARACTERIZACIÓN DE LA DELINCUENCIA EN ARGENTINA A TRAVÉS DE SISTEMAS INTELIGENTES PROYECTO FINAL DE CARRERA Autores: José María Lázaro Castillo Roberto Núñez López Directores: M. Ing. Paola Britos Dr. Ramón García Martínez Buenos Aires, Agosto 2007 AGRADECIMIENTOS – ROBERTO NÚÑEZ LÓPEZ En primer lugar, y más importante, quería agradecer su esfuerzo, cariño y paciencia a las personas que han estado aguantándome durante 24 años de vida: a mi madre (como hecho de menos tus comidas, tu buen humor y tu sonrisa), a mi padre (sin él no estaría acá donde estoy), a mi hermana (por todo lo compartido, que es mucho, y sobre todo, por la nueva vida que comienzas, por lo fuerte que has sido para dar este paso, y por lo feliz que vas a ser), a mi hermano (por todo lo que has significado para mí durante estos 24 años, por todos los consejos recibidos, por tu visita a Buenos Aires y porque todo vaya hacia delante, el futuro siempre pinta mejor), y a quien tan poca fuerzas tiene ya para demostrarlo, a mi abuelita Ramona, a mis abuelos Elena y Manuel, y en general, a toda la familia que ha estado apoyándome y ayudándome durante tanto tiempo. Sé que siempre estaréis ahí para cualquier cosa que necesite. Quisiera agradecer el aguante, paciencia, pero también los buenos y malos momentos, las risas, las lágrimas y todo lo que conlleva mantener una amistad durante más de diez años: Pozu (negro, por tantos festivales, litros y chuflillos hemos difrutado juntos), Juancar (por todas las vivencias compartidas en Torrevieja, de campamento, en Finlandia y en el resto de tiempo que llevamos juntos), Richy (por ser como eres, tan carismático, tan afable, tan amigo), Briones (chino, eres uno de los grandes, y lo sabes, el humor hachi triunfa allá donde vaya), Ajito (por todas las veces que hemos salido juntos, por lo bien que lo paso a tu lado, por el pasado y por el futuro), Ainhoa (por tu nueva etapa de maestra, que sé que toda tu energía y buena onda sabrás plasmarla en aquellos nenes que tengas a tu lado), Elsa (por todo lo vivido y lo que nos queda por delante, que buena doctora vas a ser), Laura (por la buena onda que siempre llevas encima, y porque ya verás que te vas a comer el mundo), Bea (por tu sonrisa, que anima a cualquiera, y por esa nueva casita que pronto visitaré), Elena (por todos tus consejos personales y profesionales, siempre sé que podré contar contigo), María (por todos los ratos que me tienes que andar merodeando por tu casita, pero también por los buenos momentos juntos, por Ortigueira, que este año me lo perdí), Clara (por todo, por esas conversaciones tras los veranos, esos viajes juntos, la visita que tanta ilusión me hizo, esa complicidad que nos caracteriza y por esos momentos…). Os quiero. Agradecer también a toda la gente conocida durante mi época universitaria, a Esther, a Bea, al Pelado, a César, a Manu, a Cristina, a María, a Ernesto y a todos los demás… Mención especial a AguasCalientes, donde tanta buena gente he conocido y tanto me han enseñado: a Carlos, a Luisito, al Bronxtoleño, a Fumaker, a Moncho, a Patri, a Luis, a Nadia y al Chikitín. Y a todo el mundo del que mi mente se olvida, que serán muchos, muchas gracias por esos momentos de fiestas y de tensión. A Marian, que tan importante ha sido, es y será en mi vida, a pesar de la distancia. A todas las personas que han pasado por mi vida, tanto para bien como para mal, porque sin vosotros no hubiera aprendido cosas muy importantes para enfrentarme a nuevos retos. A mi compañero, José, por haber estado ahí en los momentos buenos y malos, por todo lo que me ha aguantado, pero sobre todo, por todos los años que llevamos viéndonos día tras día, compartiendo problemas e intentándonos ayudar en lo posible, por la etapa vivida en Buenos Aires, que será inolvidable para el resto de nuestros días, por nuestros viajes, y, por ser como eres. Gracias. A la ciudad de Buenos Aires, a Argentina en general y a su gente, agradecer todo lo que me han brindado durante estos cinco meses donde he podido conocer una pequeñísima parte de este gran país. A todas las personas que me he cruzado en el camino y que, de una manera u otra, me han ayudado a seguir hacia delante. A Euge, por todo lo vivido y conocido. A Paola y a Ramón, por tendernos una mano; a Dora y Alex, por recibirnos con los brazos abiertos; al ITBA y a la UPM por haber permitido que este sueño se hiciera realidad. I II AGRADECIMIENTOS – JOSÉ MARÍA LÁZARO CASTILLO Es imposible reconocer a toda la gente que ha pasado durante estos años de carrera por mi vida, imposible describir en qué me han ayudado, cómo me han levantado el ánimo y empujado en momentos a tomar decisiones importantes, es completamente imposible, pero sí quería hacer una mención especial a algunas de las personas; Principalmente, por cercanía, cariño, constancia y apoyo en estos años va dedicado a mi familia. A mi madre (por su perseverancia y cariño, por entenderme, por tener claro que mi felicidad lleva otra dirección), a mi padre (por el cariño implícito, por ir comprendiendo que la vida tiene muchos prismas por los que verla, por que a veces un solo gesto lo resume todo), a mi hermano (bueno son demasiadas cosas que agradecer pero sobretodo puedo ver en él un espejo de las emociones, sensaciones, tentaciones y caminos que viví con su edad y que son las culpables de estar y ser lo que soy), no puedo dejar sin nombrar a mi tía, a mis abuelos y especialmente a mi abuelo Marcelo, que ya no está aquí pero que sigo su camino con la misma fuerza interior que me demostró desde que yo era muy chiquito hasta el final de sus días. Se que te hubiera gustado verme terminar esta etapa de mi vida así que todo este esfuerzo va por ti. En estos años de carrera han pasado mucha gente por mi vida y algunos quisiera que estuvieran en estas líneas de agradecimientos, empezaré cronológicamente; La primera persona con la que empecé a caminar en esta carrera fue Marta, jamás leerás estas líneas pero me ayudaste mucho en esos primeros meses donde mis fuerzas no estaban muy claras con respecto a estudiar esta carrera. Durante muchos años me acompañó Kuki, con el peleé, aprobé y trabajé muchas asignaturas quizá fuiste tú mi compañero de abordo con el que construí el esqueleto profesional que llevo dentro, entre medias, muchas han sido las personas pero sobretodo fue una fuerza de afinidad, un proyecto que empecé a los meses de comenzar a estudiar, fue la construcción de Aguascalientes la que me ha acompañado durante estos 10 años de carrera y con ella toda la gente que ha pasado por ahí, José Luís, Ruben, Jaime, Braulio, Miguel, Carlos, Rober, Luisito, Alberto, El fumaquer, Patri, Nadia, Luís y tantos otros que hicieron posible que un proyecto social tuviera cavidad y fuerza en un espacio universitario lleno de tristeza y aburrimiento como era el Campus Sur, espero y deseo que dure por muchos años esa asociación. De toda este gente, con algunos no queda nada, de otros queda poco pero de los que siguen a mi lado puedo decir que les llevo dentro, que son y serán parte de mi vida por muchos años, ahí está Carlos un pilar de mis deseos e ilusiones por cambiar este mundo, Libertad amiga y compañera en buenos y malos momentos, el Rober por hacerme compartir estos últimos meses en Argentina junto con su energía y buenos momentos que nos hemos regalado…más allá de la convivencia creo que hace años plantamos una semilla en la confianza y que en estos meses la hemos visto crecer imparablemente, entre risas y momentos inolvidables. Queda mucha gente a la que agradecer este esfuerzo, a todo el personal docente de la E.U.I. que me ha apoyado, a Antonio ((el bedel) por su complicidad, a las chicas de la limpieza por sus horas de conversación, especialmente Rafa Miñano por su dedicación e interés en ayudarme académicamente y en el terreno personal siempre que ha podido. Terminando los agradecimientos y su cronología quiero nombrar al Doctor Ramón García Martín y M. Ing. Paola Britos por su paciencia y compresión en entender lo que significaba para nosotros este proyecto más allá de lo académico. Ahora si que sí, dedicárselo finalmente a Flori que me abrió las puertas de Buenos Aires enseñándome la parte más auténtica de una ciudad que no duerme y te hace sentir como si hubieras nacido en ella. Me queda mucha gente que no aparece aquí y que pusieron su granito de este camino que empecé con 18 añitos y que después de una década veo su fin. Este esfuerzo va dedicado a todas esas personas que están privadas de libertad, sea cual sea su forma explícita. III IV ÍNDICE 1. Introducción………………………………………………………………. 1 2. Requisitos…………………………………………………………………. 2.1. Requisito 1 – Estudio de la mujer presa, tratamiento y perfiles delictivos …………………………………………………………….. 2.1.1. Comprensión de los datos…………………………………….. 2.1.2. Preparación de los datos………………………………………. 2.1.3. Modelado……………………………………………………... 2.2. Requisito 2 – Estudio general de los cuatro delitos más comunes…... 2.2.1. Comprensión de los datos…………………………………….. 2.2.2. Preparación de los datos………………………………………. 2.2.3. Modelado……………………………………………………... 2.3. Requisito 3 – Caracterización de los presos mayores de 65 años……. 2.3.1. Comprensión de los datos…………………………………….. 2.3.2. Preparación de los datos………………………………………. 2.3.3. Modelado……………………………………………………... 2.4. Requisito 4 – Delito estupefacientes………………………………..... 2.4.1. Comprensión de los datos…………………………………….. 2.4.2. Preparación de los datos………………………………………. 2.4.3. Modelado……………………………………………………... 3 3. Conclusiones generales…………………………………………………… 67 4. Futuras líneas de investigación…………………………………………… 71 5. Bibliografía……………………………………………………………….. 73 6. Anexo……………………………………………………………………... 6.1. Data Mining – Historia y Aplicaciones……………………………… 6.2. Algoritmo SOM……………………………………………………… 6.3. Herramienta NNclust………………………………………………… 6.4. Algoritmo C4.5………………………………………………………. 6.5. Herramienta Ctree……………………………………………………. 6.6. Herramienta Weka…………………………………………………… 6.7. Artículos de prensa interesantes……………………………………… 75 75 79 80 87 88 97 106 3 4 6 10 18 19 21 25 43 44 46 47 59 59 61 62 V VI Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 0. INTRODUCCIÓN Los sistemas expertos de detección de patrones de conducta son, a día de hoy, una de las mejores herramientas de prevención y análisis ante diferentes áreas sociales, como pueden ser entornos comerciales, problemáticas sociales, estudios de mercado, análisis de poblaciones caracterizadas (consumidores, educación, delincuencia, etc.). Estos sistemas consiguen detectar distintas características sobre la población analizada, de esta manera, con tan sólo tener un registro veraz y amplio de un entorno, podemos obtener resultados óptimos que nos ayuden a entender mejor como enfrentarnos a un problema en cuestión. En este caso hemos trabajado en el entorno de los delitos, las personas presas y su tratamiento dentro de los centros penitenciarios. Partiendo de una base de datos abrupta y de gran volumen, nos hemos propuesto buscar distintos perfiles estereotipados de la comunidad carcelaria, para de esta forma intentar extraer información que nos lleve a saber y entender qué sectores de la sociedad están más expuestos, qué factores sociales se repiten en según qué entornos y qué perfiles delictivos nos podemos encontrar. Más concretamente, el trabajo a realizar se ha basado en hacer varios estudios que hemos creído importantes. Los estudios realizados se basan en buscar un perfil de la mujer presa, tanto de los factores sociales que la han podido abocar a la cárcel como su comportamiento dentro de dichos centros. Otro de los estudios realizados han sido sobre una fenómeno bastante repetido en las cárceles latinoamericanas como es el de los ancianos que están presos, en este caso hemos tratado las circunstancias y el tratamiento que se les da a dicha población carcelaria, también hemos tratado de dar un perfil de las personas presas por los cuatro delitos más mayoritarios (estupefacientes, violaciones, robos/hurtos y homicidios) y luego nos hemos centrado en las causas de ingreso en prisión por delitos contra la salud como son los estupefacientes. Las herramientas utilizadas en esta tesis han sido todas ellas aplicaciones bajo licencias libres de distribución, apostando por ellas porque consideramos que están dotadas de los recursos que necesitamos para nuestros objetivos, es por ello que hemos probado varias hasta encontrar en cada caso las que mejor resultados nos daban, hemos pasado desde pequeñas aplicaciones construidas como macros de Excel hasta una potente software como es Weka dotado de varios algoritmos tanto en clustering como en procesos de inducción. Organización del documento: 0. Requisitos: Después pasamos a enumerar los requisitos y el estudio de cada una de sus fases para cada año estudiado. a. Estudio de la mujer presa, tratamiento y perfiles delictivos. i. Compresión de los datos ii. Preparación de los datos iii. Modelado 1 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes b. Estudio general de los cuatro delitos más comunes estudiando el perfil de cada uno. i. Compresión de los datos ii. Preparación de los datos iii. Modelado c. Delito Estupefacientes. i. Compresión de los datos ii. Preparación de los datos iii. Modelado d. Caracterización de los presos mayores de 65 años i. Compresión de los datos ii. Preparación de los datos iii. Modelado 1. Conclusiones finales: En esta sección hacemos un esbozo completo de cómo hemos trabajado. Explicaremos a nivel de recursos y de resultados las apreciaciones que consideramos oportunas y así recoger toda la información posible para sucesivos trabajos en esta área. 2. Futuras líneas de investigación: Describiremos hacia dónde o en qué campos se deberían de realizar los siguientes estudios. 3. Bibliografía. y Anexos: Como en cualquier trabajo documental al final recogemos las fuentes fidedignas de información y las consideraciones que creemos importantes para complementar el estudio 2 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 1. REQUISITOS 1.1. REQUISITO 1 – ESTUDIO DE LA MUJER PRESA, TRATAMIENTO Y PERFILES DELICTIVOS • Objetivo del requisito: Buscar patrones de comportamiento de las mujeres presas en Argentina, tanto de su estancia en los presidios como de su formación laboral/académica. • Origen de la información del requisito: o MAECENSO · Censo de actitud y comportamiento de la sociedad carcelaria. o MAETABCODIGOS · Tabla donde se muestra una lista detallando los códigos generales. • Restricciones del requisito: Al centrarnos en la población femenina nos hemos ajustado a los datos única y justamente de las presas. Como el censo seguía siendo amplio hemos limitado la muestra a 2469 observaciones, omitiendo selectivamente a las presas que estaban acusadas de delitos fuera de lo común. • Atributos involucrados en el requisito: Atributo idReco Edad Nacionalidad estadoCivil nivelInstruc ulSitLaboral capLaboalIngresar ulLugarResid idDeli1 hsTrabRemu partiProgLabo partiProgEdu partiActivDepo partiAlterOrden tenFugasEvas tenSuicidio mjTieneHijos Base de datos maeCenso maeCenso maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos Tabla 1. Atributos involucrados en el requisito con sus respectivas Bases de Datos • Información de soporte para el requisito: No existe información adicional además de las mencionadas como origen de la información. 3 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 1.1.1. COMPRENSIÓN DE LOS DATOS • Datos iniciales: El estudio que vamos a llevar a cabo requiere primero de una preparación de los datos, ya que contamos con una base de datos en bruto con un volumen muy alto de datos y que necesita de un primer tratamiento selectivo. Para ello, hemos seleccionado primero las observaciones donde el campo SEXO sea el femenino para así acotar nuestra búsqueda al objetivo que perseguimos. Analizando nuestras pretensiones, vemos que necesitamos simplificar más los valores de los campos que tenemos. Para ello seleccionamos los campos que creemos importantes desechando aquellos que no guardan una correlación directa con nuestros objetivos. En el caso de la NACIONALIDAD, hemos diferenciado entre las presas argentinas y las que son de fuera sin entrar a valorar su nacionalidad completa. Para una mayor compresión de los datos y a modo de mejorar la calidad de los mismos los hemos pasado todos a letra para poder aumentar la legibilidad de los resultados y conseguir una mayor interpretación. • Descripción de los datos Las bases de datos necesarias para alcanzar nuestros objetivos, se citan a continuación: o MAECENSO · En esta tabla (Tabla 2) nos encontramos los datos de la población presa en Argentina, desde datos concretos del propio preso hasta su comportamiento dentro del centro penitenciario. Atributo Edad Nacionalidad estadoCivil nivelInstruc ulSitLaboral capLaboalIngresar ulLugarResid idDeli1 hsTrabRemu partiProgLabo partiProgEdu partiActivDepo partiAlterOrden tenFugasEvas tenSuicidio mjTieneHijos Descripción Años del preso País de nacimiento Estado civil Nivel de estudios Última situación laboral del preso Capacitación laboral al ingresar Último lugar de residencia Delito cometido Horas de trabajo remunerado Participa en un programa laboral Participa en un programa educativo Participa en alguna actividad laboral Participó en algún altercado del orden Tentativas de fuga Intentos de suicídio Si tiene hijos la presa Tabla 2. Atributos y descripción 4 Valores posibles Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico alfanumérico Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes • Exploración de los datos o Suposiciones para futuros análisis: Como primer acercamiento, podemos ver cómo la edad media de las presas no supera los 35 años y una de las condiciones más repetida es la de desocupada con pocos estudios y con delitos relacionado con las drogas y el robo. Podemos observar que no son especialmente conflictivas dentro de los centros penitenciarios comparándolo con el alto índice proporcional de hombres que cometen algún altercado dentro. • Reporte de calidad de datos: Nos encontramos con información bastante bien tratada y con un índice bajo de errores. Para el tratamiento de cada dato hemos valorado separar los datos vacíos de los no determinados, es por ello que hemos puesto “No definido” cuando el dato que encontrábamos no estaba dentro de la Tabla de códigos de la base de datos y el valor “Vacío” cuando la celda estaba vacía. Dejamos constancia que en valores alfanuméricos el valor “Vacío” tiene el número 16. Encontramos los siguientes puntos a resaltar: o Podemos ver que los campos que más fallos de calidad tienen son los que proceden de la información sacada del penal, como por ejemplo los programas educativos, deportivos o laborales, con una media de 250 celdas vacías en esa información, llegando a alcanzar las 500 celdas en los campos de información sobre los trabajos remunerados, como son los campos “InsTrabRemu” y “partiProgLab”. o La calidad mejora considerablemente cuando se trabaja con datos aportados en el ingreso del preso, en lo referente a su edad, sus condiciones antes del ingreso y sus datos personales. 5 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 1.1.2. PREPARACIÓN DE LOS DATOS • Preparación de Dataset En este caso hemos, tenido que hacer un pequeño DataSet, ya que nos encontrábamos que la capacidad operativa de la computadora no podía trabajar con más de 5000 registros así que buscamos una muestra representativa y ordenada aleatoriamente. Después estudiamos los datos para que fueran lo más representativos posible e incluimos alguno de los registros que habían quedado fuera de la selección aleatoria. Por lo tanto, obviamos los puntos de descripción, selección, inclusión y/o exclusión de datos y su posterior limpieza. Tampoco hemos necesitado generar datos basados en los que ya disponemos ni trabajar con atributos derivados que nos ayuden a explicitar el resultado final. De esta manera afirmamos que los datos están preparados para ser modelados con las herramientas de minería de datos que nos sean necesarias. Contamos con una tabla de un volumen considerable pero con datos limpios y preparados ser tratados y localizados los requisitos en cuestión, así que esperamos que la interpretación de los mismos sea lo más real y acertada posible. • Preparación de datos para herramientas En primer lugar, vamos a realizar una pequeña descripción de los atributos y los valores que se han modificado para este estudio en concreto: - - NACIONALIDAD: En el caso de la nacionalidad de las presas también hemos comprimida la información a nacionalidad argentina o extranjera ya que no consideramos un dato muy importante si la presa es paraguaya, brasilera o uruguaya. Con esta acción reducimos el ruido que se pueda ocasionar de un listado de 15 nacionalidades distintas que puede provocar más confusión que aporte positivo a la búsqueda. idDeli1: Tipo de delito que se le acusa al preso. Toma 15 valores pero nosotros hemos considerado solo los más comunes que hemos visto que son los referentes a ESTUPEFACIENTES, VIOLACIONES, ROBOS Y HURTOS, HOMICIDIOS DOLOSOS. Luego hemos juntado los referentes a delitos contra la propiedad, la libertad y el estado en uno solo, de esta manera también reducimos el ruido y conseguimos unos resultados más adecuados a nuestros objetivos. Lo mismo hicimos con los delitos contra las personas. Para trabajar con las distintas herramientas de Minería de Datos, debemos hacer un reajuste de algunos de los valores de las observaciones, ya que cada herramienta tiene unos requisitos de configuración y preparación de datos para luego ser ejecutado. Por un lado, vamos a trabajar con NNclust, el cual requiere que todos los valores que se manejen sean numéricos, que en este caso no será el problema ya que la tabla final es numérica en todos sus atributos, y además que no haya ningún valor vacío, para este ejemplo si hemos tenido que hacer modificaciones para acoplar dicha tabla a los requisitos. Y por otro lado, vamos a trabajar con Weka, que no tiene ningún problema 6 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes para trabajar con valores tanto numéricos como alfanuméricos, pudiendo además tratar los valores que aparecen vacíos. Se van a hacer modificaciones, por tanto, para trabajar con NNclust, pero también mantendremos esas modificaciones para trabajar con Weka, ya que podría dar lugar a resultados erróneos. Los valores de los campos modificados o codificados a alfanuméricos quedarían así: Sexo Femenino 1 Masculino 2 Estado civil Casado 1 Soltero 2 Concubino 3 Separado o divorciado 4 Viudo 5 Separado de hecho 6 Nivel de instrucción: Primario incompleto 1 Primario completo 2 Secundario incompleto 3 Secundario completo 4 Terciario incompleto 5 Terciario completo 6 Universitario incompleto 7 Universitario completo 8 Ninguno 9 Ultima situación laboral Desocupado 1 Trabajador de tiempo parcial 2 Trabajador de tiempo completo 3 Situación legal Procesado 1 Condenado 2 Inimputable 3 Otra situación 4 Lugar de residencia Urbano 1 Rural 2 7 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Delitos cometidos Estupefacientes 1 Homicidios dolosos 2 Robo y/o tentativa de robo 3 Participa en programa laboral Si 1 No 2 Participa en programa Educacional No participa de ningún programa educativo 1 Si - educación no forma 2 Si - educación formal – POLIMODAL 3 Si - educación formal – EGB 4 Si - educación formal – UNIVERSITARIA 5 Si - educación formal – TERCIARIA 6 Participa en un programa deportivo Si 1 No 2 Conducta Mala 1 Buena 2 Muy buena 3 Ejemplar 4 Pésima 5 No definida 6 No definido 5 Tentativas de fuga Si 1 No 2 Tentativas de suicidio Si 1 No 2 Participa en algún programa de reducción de pena No está incorporado 1 Si está incorporado 2 Tuvo reducción de pena No tuvo reducción de pena 1 Si hasta 6 meses 2 Nacionalidad Argentina 1 Extranjera 2 8 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Participa en altercados del orden No 1 SI - Alteración del orden con heridos o muertos 2 SI - Alteración del orden SIN heridos, ni rehenes 3 SI - Alteración del orden con daños 4 SI - Alteración del orden con rehenes 5 Tentativas de fuga Si 1 No 2 Horas de trabajo remunerado Hasta 10 horas semanales 1 Hasta 20 horas semanales 2 Hasta 30 horas semanales 3 Hasta 40 horas semanales 4 No tiene trabajo remunerado 5 Capacitación laboral al ingresar No tiene ni oficio ni profesión 1 Tiene algún oficio 2 Tiene alguna profesión 3 Delitos: Estupefacientes 1 Homicidios 2 Delitos contra el estado (administración, estado, etc...) 3 Hurto y/o tentativa de hurto 4 Lesiones culposas y dolosas 5 Robo y/o tentativa de robo 6 Violaciones 7 Delitos contra la propiedad y libertad. 8 No definido 13 Vacío 16 9 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 1.1.3. MODELADO A. Resultados obtenidos aplicando clustering La herramienta que vamos a utilizar en el proceso de clustering será NNclust. Esta herramienta está basada en el algoritmo SOM. Tenemos una matriz de NxN neuronas que decidimos arrancar la ejecución con N=4. Tras la primera ejecución, obtenemos el siguiente resultado (tabla 3): Cluster Sizes Cluster 1 Cluster 2 Cluster 3 Cluster 4 1 6 95 2367 Tabla 3. Clasificación de Clusters Ha clasificado los datos en tres cluster, el primero contiene 1 dato, el segundo 6, el tercero 95 y el cuarto 2367 datos. La tabla de las medias (tabla 4) de los valores es la siguiente: Cluster Means Cluster 1 Cluster 2 Cluster 3 Cluster 4 52,0 45,5 32,1 33,7 Edad 2,0 1,7 1,0 1,1 Nacionalidad 1,7 2,4 2,3 1,0 estadoCivil 2,0 5,0 2,4 2,4 NivelInstruc 1,0 1,8 1,7 1,4 UltLaboral 16,0 16,0 15,5 1,1 Caplaboalingres 1,0 2,7 3,4 3,5 UltlugarResid 16,0 16,0 15,8 5,5 IdDeli1 16,0 15,7 3,6 16,0 HsTrabRemu 16,0 16,0 15,7 4,2 partiPrgLabo 16,0 16,0 15,7 2,5 partiProgEdu 2,0 2,0 2,1 3,1 partiActivDepo 16,0 16,0 15,7 3,1 partiAlterOrden 2,0 2,0 2,0 1,9 TenFugasEvas 52,0 45,5 32,1 33,7 TenSuicidio 2,0 1,7 1,0 1,1 Tiene hijos Tabla 4. Medias de los Clusters El único problema con el que nos encontramos aquí es que NNclust trabaja con datos numéricos, entonces las medias no nos aproximan a datos concretos ya que no se puede ser medio argentina medio extranjera o haber cometido una medio violación. Pero en lo que respecta a la división, podemos afirmar que no es del todo buena, aunque sí que vemos cómo se quita la observación más atípica o que tienen información inconclusa. Eso lo podemos observar porque la media es 16 o cercana a 16 que es el valor que le hemos adjudicado al valor “Vacío” o “No definido” y luego en el tratamiento de las demás lo más destacable está en el cluster 4, donde se aglutinan los datos que más información aportan. 10 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Hacemos una segunda corrida al NNclust sólo con las observaciones del cluster 4, es decir, en el que se resalta la información más completa. Obtenemos la siguiente tabla (tabla 5): Cluster Sizes Cluster 1 Cluster 2 Cluster 3 Cluster 4 2 1 179 2185 Tabla 5. Clasificación de Clusters A continuación adjuntamos el resultado de las medias (tabla 6) donde se puede ver claramente los valores de los tres primeros Cluster como se acercan progresivamente a 16, que seria el número que hemos destinado para los valores no definidos o vacíos. Cluster Means Cluster 1 Cluster 2 Cluster 3 Cluster 4 51,5 24,0 27,3 34,2 Edad 1,0 1,0 1,1 1,5 Nacionalidad 2,5 3,0 2,4 2,3 estadoCivil 5,5 9,0 2,1 2,5 NivelInstruc 1,0 1,0 1,3 1,4 UltLaboral 1,0 1,0 1,1 1,4 Caplaboalingres 1,0 1,0 1,0 1,1 UltlugarResid 2,0 3,0 5,0 3,4 IdDeli1 16,0 15,9 4,6 16,0 HsTrabRemu 16,0 16,0 15,8 2,6 partiPrgLabo 16,0 16,0 15,8 3,3 partiProgEdu 16,0 16,0 15,8 1,3 partiActivDepo 16,0 16,0 15,8 1,3 partiAlterOrden 16,0 16,0 15,8 2,0 TenFugasEvas 16,0 15,8 2,0 16,0 TenSuicidio 2,0 2,0 2,0 1,9 Tiene hijos Tabla 6. Medias de los Clusters B. Conclusiones en base a los resultados obtenidos en el proceso de clustering Con los resultados obtenidos con NNclust podemos hacer varias conclusiones: a. En primer lugar observamos que tanto en la primera corrida como en la segunda los resultados han sido más hacia depurar la calidad de los datos y reestructurar la información por características concretas. Esto nos pone en una situación de ineficacia. b. En la primera corrida, pudimos ver como en el cluster 4 colocaba la mayor parte de las observaciones (2367) y fijándonos en la tabla de medias podemos ver como la agrupación con NNclust la realiza basándose en un carácter de calidad de datos, separando las observaciones más incompletas progresivamente. La segunda corrida la hacemos sólo con las observaciones del cluster 4 de la primera corrida y vemos que vuelve a reproducir el mismo esquema. Cuatro cluster y en el cuarto de nuevo las observaciones más completas llegando a un nivel de abstracción que no es fácil de interpretar a 11 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes nivel de agrupación por conductas, pero que si nos aporta una fiabilidad en los datos que agrupa en el cluster mayoritario (cluster 4 con 2185 observaciones). c. Estas agrupaciones nos llevan a ver que la mayor falta de información se da en los datos que vienen de dentro del centro penitenciario, como es la conducta del preso, las tentativas de fuga, de altercados, los programas formativos y deportivos en los que participan los presos. Imaginamos que esto se debe a la falta de estructura y a la burocracia dentro de los centros penitenciarios y también a la inestabilidad que se genera dentro de dichos centros, donde un preso puede participar en un programa y ser retirado de él por cualquier tipo de falta. d. Como ya comentamos anteriormente, se dan ciertos patrones de conducta que nos llevan a poder interpretar la situación de la mujer dentro de las cárceles, como por ejemplo el nivel educativo respecto a los delitos cometidos. Podemos observar que robo, estupefacientes y homicidio son los delitos cometidos por las presas y que el homicidio va muy asociado a un nivel de educación no formal. Sin embargo, en los delitos de robo y hurto, si encontramos que aunque predominen niveles de educación no formal también empezamos a ver cómo van subiendo el número de presas que tienen el nivel EGB, TERCIARIA e incluso UNIVERSITARIO. Esto es debido a la situación político social que tiene el país, ya que el robo, en su mayoría de los casos, va asociado a la necesidad para comer y en otros impuesta por las tendencias consumistas de autorreafirmarte en tu clase social. Es por ello que podemos encontrar presas con niveles más altos de educación que comenten robos y/o hurtos. e. La edad a la que se cometieron los delitos es muy significativa, ya que podemos observar cómo los delitos más relacionados con la violencia y la necesidad se comenten más en la juventud, pero sin encontrar ausencias en todo el rango de edades. Cuando nos referimos más al tema de los estupefacientes, ahí vemos cómo por un lado están los más jóvenes y por otro gente muy mayor, lo que nos hace ver que dentro de todo el mercado de la droga hay diferentes figuras, aunque este dato es mucho más apreciable en los hombres que en las mujeres. Esto se debe a un factor de autoridad y patriarcado donde las mujeres no llegan al poder. C. Proceso de Inducción Para esta fase, vamos a utilizar la herramienta Weka. Del resultado del proceso de clustering obtuvimos unas tablas con nuestras observaciones clasificadas por el número de cluster asignado. Como la agrupación que resultó del clustering nos vino a agrupar los datos con mayor calidad, realizaremos el proceso de inducción con los datos agrupados en el cluster 4 de cada una de las tablas obtenidas en los cuatro delitos que estamos tratando. Dichas tablas que vamos a realizar con Weka han sido reducidas a muestras de entre 850 y 1000 observaciones por una cuestión de capacidad operativa y de recursos. 12 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes En primer lugar, hemos tenido que volver a retocar los datos. El problema está esta vez en Weka, ya que para trabajar con su algoritmo de clasificación J48 (C4.5) nos exige que la clase sea de tipo nominal y no numérica. Los resultados obtenidos con Weka son los siguientes (figura 1): Clase: trabajo antes de ingresar. Correctly Classified Instances Incorrectly Classified Instances 81.0142 % 18.9858 % === Matriz de confusión === a b 182 39 51 496 61 8 0 1 c 0 1 9 0 d 0| 0| 0| 0| <-- classified as a = Trabajador_de_tiempo_parcial b = Desocupada c = Trabajador_de_tiempo_completo d = No_definido Clase: capacidad laboral. Correctly Classified Instances Incorrectly Classified Instances 86.9104 % 13.0896 % === Matriz de confusión === a b c d e <-- classified as 239 26 1 0 0 | a = Tiene_algún_oficio 35 469 0 0 0 | b = No_tiene_ni_oficio_ni_profesión 32 16 16 0 0 | c = Tiene_alguna_profesion 1 0 0 0 0 | d = No_definido 0 0 0 0 13 | e = Vacio Clase: participa en programa laboral Correctly Classified Instances Incorrectly Classified Instances 72.2877 % 27.7123 % === Matriz de confusión === a b c <-- classified as 519 26 0 | a = No 202 50 0 | b = Si 7 0 44 | c = Vacio Figura 1. Matrices de confusión con los diferentes objetivos Hemos obtenido por inducción dos árboles indicando como clases los campos ulSitLaboral y capLaboalIngresar y la confianza que nos muestra es buena. Sus árboles de decisión son los siguientes: 13 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Clase: ulSitLaboral capLaboalIngresar = Tiene_algún_oficio | mjTieneHijos <= 1: Desocupada | mjTieneHijos > 1: Trabajador_de_tiempo_parcial capLaboalIngresar = No_tiene_ni_oficio_ni_profesión: Desocupada capLaboalIngresar = Tiene_alguna_profesion | ulLugarResid = Urbano: Trabajador_de_tiempo_parcial | ulLugarResid = Rural: Trabajador_de_tiempo_completo | ulLugarResid = Vacío: Trabajador_de_tiempo_parcial capLaboalIngresar = No_definido: Trabajador_de_tiempo_parcial capLaboalIngresar = Vacío: Desocupada Número de niveles: 8 Tamaño del árbol: 11 Clase: capLaboalIngresar ulLugarResid = Urbano | ulSitLaboral = Trabajador_de_tiempo_parcial: Tiene_algún_oficio | ulSitLaboral = Desocupada | | mjTieneHijos <= 1 | | | idDeli1 = Homicidios_dolosos: No_tiene_ni_oficio_ni_profesión | | | idDeli1 = Otros_delitos_contra_las_personas: No_tiene_ni_oficio_ni_profesión | | | idDeli1 = Privación_ilegítima_de_la_libertad: No_tiene_ni_oficio_ni_profesión | | | idDeli1 = Robo_y/o_tentativa_de_robo: No_tiene_ni_oficio_ni_profesión | | | idDeli1 = Delitos_c/_la_administracion_pública: Tiene_algún_oficio | | | idDeli1 = estupefacientes | | | | hsTrabRemu = Hasta_10_horas_semanales: No_tiene_ni_oficio_ni_profesión | | | | hsTrabRemu = No_tiene_trabajo_remunerado | | | | | partiProgLabo = No | | | | | | estadoCivil = 1.0: No_tiene_ni_oficio_ni_profesión | | | | | | estadoCivil = 2.0 | | | | | | | partiProgEdu = No_participa_de_ningún_programa_educativo: No_tiene_ni_oficio_ni_profesión | | | | | | | partiProgEdu = Si_-_educación_formal_-_TERCIARIA: No_tiene_ni_oficio_ni_profesión | | | | | | | partiProgEdu = Si_-_educación_no_formal: No_tiene_ni_oficio_ni_profesión | | | | | | | partiProgEdu = Si_-_educación_formal_-_EGB: Tiene_alguna_profesion | | | | | | | partiProgEdu = Vacío: No_tiene_ni_oficio_ni_profesión | | | | | | | partiProgEdu = Si_-_educación_formal_-_POLIMODAL: No_tiene_ni_oficio_ni_profesión | | | | | | | partiProgEdu = Si_-_educación_formal_-_UNIVERSITARIA: No_tiene_ni_oficio_ni_profesión | | | | | | estadoCivil = Separa de hecho: No_tiene_ni_oficio_ni_profesión 14 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes | | | | | | estadoCivil = Concubina: Tiene_alguna_profesion | | | | | | estadoCivil = Viuda: No_tiene_ni_oficio_ni_profesión | | | | | | estadoCivil = Soltera: No_tiene_ni_oficio_ni_profesión | | | | | | estadoCivil = No_definida: No_tiene_ni_oficio_ni_profesión | | | | | partiProgLabo = Si: Tiene_algún_oficio | | | | | partiProgLabo = Vacío: Tiene_alguna_profesion | | | | hsTrabRemu = Vacío: Tiene_algún_oficio | | | | hsTrabRemu = Hasta_20_horas_semanales: Tiene_algún_oficio | | | | hsTrabRemu = Hasta_40_horas_semanales: Tiene_algún_oficio | | | | hsTrabRemu = Hasta_30_horas_semanales: No_tiene_ni_oficio_ni_profesión | | | idDeli1 = Delitos_contra_la_seguridad_pública: Tiene_alguna_profesion | | | idDeli1 = Delitos_c/el_orden_público: No_tiene_ni_oficio_ni_profesión | | | idDeli1 = Hurto_y/o_tentativa_de_hurto: No_tiene_ni_oficio_ni_profesión | | | idDeli1 = Otros_delitos_contra_la_propiedad: | | | idDeli1 = Lesiones_Dolosas: No_tiene_ni_oficio_ni_profesión | | | idDeli1 = Otros_delitos_contra_la_honestidad: No_tiene_ni_oficio_ni_profesión | | | idDeli1 = Violaciones: Tiene_alguna_profesion | | | idDeli1 = Delitos_contra_el_honor: No_tiene_ni_oficio_ni_profesión | | | idDeli1 = Vacío: No_tiene_ni_oficio_ni_profesión | | | idDeli1 = Homicidios_dolosos_(tentativa): No_tiene_ni_oficio_ni_profesión | | | idDeli1 = Amenazas: No_tiene_ni_oficio_ni_profesión | | | idDeli1 = Lesiones_Culposas: No_tiene_ni_oficio_ni_profesión | | | idDeli1 = Otros_delitos_contra_la_libertad: No_tiene_ni_oficio_ni_profesión | | | idDeli1 = Contravenciones: No_tiene_ni_oficio_ni_profesión | | | idDeli1 = Delitos_c/_el_estado_civil: No_tiene_ni_oficio_ni_profesión | | | idDeli1 = Delitos_c/_la_fe_pública: No_tiene_ni_oficio_ni_profesión | | mjTieneHijos > 1: No_tiene_ni_oficio_ni_profesión | ulSitLaboral = Trabajador_de_tiempo_completo: Tiene_algún_oficio | ulSitLaboral = No_definido: No_tiene_ni_oficio_ni_profesión ulLugarResid = Rural | ulSitLaboral = Trabajador_de_tiempo_parcial: Tiene_algún_oficio | ulSitLaboral = Desocupada: No_tiene_ni_oficio_ni_profesión | ulSitLaboral = Trabajador_de_tiempo_completo | | hsTrabRemu = Hasta_10_horas_semanales: Tiene_alguna_profesion | | hsTrabRemu = No_tiene_trabajo_remunerado: Tiene_algún_oficio | | hsTrabRemu = Vacío: Tiene_alguna_profesion | | hsTrabRemu = Hasta_20_horas_semanales: No_tiene_ni_oficio_ni_profesión | | hsTrabRemu = Hasta_40_horas_semanales: Tiene_alguna_profesion | | hsTrabRemu = Hasta_30_horas_semanales: Tiene_alguna_profesion | ulSitLaboral = No_definido: Tiene_alguna_profesion ulLugarResid = Vacío: Vacío Número de niveles: 57 Tamaño del árbol: 67 15 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Clase: Participa en algún programa laboral dentro de la prisión. partiProgEdu = No_participa_de_ningún_programa_educativo: No partiProgEdu = Si_-_educación_formal_-_TERCIARIA: Si partiProgEdu = Si_-_educación_no_formal: No partiProgEdu = Si_-_educación_formal_-_EGB | estadoCivil = Casada: No | estadoCivil = Soltera: No | estadoCivil = Separada: No | estadoCivil = Concubina: Si | estadoCivil = Separada de hecho: No | estadoCivil = Viuda: No | estadoCivil = No_definida: No partiProgEdu = Vacio | hsTrabRemu = Hasta_10_horas_semanales | | ulSitLaboral = Trabajador_de_tiempo_parcial: No | | ulSitLaboral = Desocupada | | | partiAlterOrden = No: Si | | | partiAlterOrden = SI-Alteración_del_orden_SIN_heridos-_ni_rehenes: No | | | partiAlterOrden = Vacio: No | | | partiAlterOrden = SI_-_Alteración_del_orden_con_rehenes: No | | | partiAlterOrden = SI_-_Alteración_del_orden_con_daños: No | | | partiAlterOrden = SI-_Alteración_del_orden_con_heridos_o_muertos: No | | ulSitLaboral = Trabajador_de_tiempo_completo: No | | ulSitLaboral = No_definido: No | hsTrabRemu = No_tiene_trabajo_remunerado: Si | hsTrabRemu = Vacio: Vacio | hsTrabRemu = Hasta_20_horas_semanales: No | hsTrabRemu = Hasta_40_horas_semanales: Si | hsTrabRemu = Hasta_30_horas_semanales: No partiProgEdu = Si_-_educación_formal_-_POLIMODAL: Si partiProgEdu = Si_-_educación_formal_-_UNIVERSITARIA: Si Número de niveles: 26 Tamaño del árbol: 31 16 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes D. Conclusiones sobre el proceso de inducción Dentro de todas posibilidades que nos ofrece Weka, hemos obtenido tres árboles que hemos considerado óptimos con un porcentaje de confianza mayor del 75%. Con dicho porcentaje podemos pasar a analizar los resultados: o En el primer árbol, el campo clase ha sido el que nos indica el último trabajo (en el caso que tuvieran) que desarrollaron los presos antes de su ingreso. Una de las variables a tener en cuenta es el número de hijos de la presa, viendo que si la presa no tiene hijos, una de las posibilidades es la de no tener un trabajo remunerado, mientras que si el número de hijos es mayor que uno se dan otras posibilidades que dependen de otros factores, como el entorno donde viven, teniendo más posibilidades de un trabajo a tiempo completo si viven en zonas rurales mientras que en zonas urbanas las posibilidades se reducen a trabajos a tiempo parcial o directamente a la situación de no tener trabajo. o En el segundo árbol, el campo clase ha sido la capacidad laboral al ingresar. El perfil que se nos descubre aquí es el de una presa que vive en zonas urbanas, sin capacitación laboral, desocupada y sin hijos que le lleva a cometer delitos relacionados con los homicidios, robos, hurtos, secuestros y delitos contra las personas. Este perfil nos muestra la situación socio-cultural donde se desenvuelven las presas comunes. Vemos que los delitos de violaciones se pueden dar tanto los casos de que la presa tenga o no capacitación laboral. Cuando las presas tienen más de un hijo, vemos que las posibilidades del delito aumentan ya que la situación familiar a soportar es mucho más compleja, también se da que dicho perfil contempla a las presas que tienen capacidad laboral e incluso trabajos a tiempo parcial. Ya dentro de la cárcel, observamos que las únicas presas que trabajan dentro de las máximas horas permitidas (30 o 40 semanales) son las que tenían alguna profesión antes de entrar. Dejando los trabajos menos cualificados a las presas que no tenían ni oficio ni trabajo al ingresar. o El tercer árbol utiliza el campo “partiPorgLab” (participa en algún programa laboral) como la clase. Lo primero que observamos es que una de las constantes para participar en dichos programas es la de tener algún oficio antes de entrar. Otro de los factores es el nivel de estudios que tienen: se da que en estudios superiores o terciarios, suelen adherirse a dichos programas laborales incluso participando en programas educativos dentro del penal, sin importar ni su estado civil ni el delito cometido. El comportamiento dentro de los centros penitenciarios es importante y queda demostrado que pocas presas participan en dichos programas si han estado involucradas en altercados del orden. 17 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 1.2. REQUISITO 2 – ESTUDIO GENERAL DE LOS CUATRO DELITOS MÁS COMUNES • Objetivo del requisito: Buscar patrones de comportamiento en la población presa enfocando la búsqueda en cómo influye la formación y preparación laboral respecto al delito cometido. • Origen de la información del requisito: o MAECENSO · Censo de actitud y comportamiento de la sociedad carcelaria. o MAETABCODIGOS · Tabla donde se muestra una lista detallando los códigos generales. • Restricciones del requisito: Al centrarnos en toda la población carcelaria, hemos tenido que tomar una muestra en DataSet y posteriormente hemos divido toda la información en los cuatro delitos más comunes, para ver en cada delito cómo es el comportamiento respecto a su formación. Es por ello que separaremos en tipos de delito nuestra información. • Atributos involucrados en el requisito: Atributo idReco Edad Sexo Nacionalidad estadoCivil nivelInstruc ulSitLaboral sitLegal idDeli1 partiProgLabo partiProgEdu partiActivDepo califConducta tenFugasEvas tenSuicidio partiProgPreLib tuvoReducPena Base de datos maeCenso maeCenso maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos Tabla 7. Atributos involucrados en el requisito con sus respectivas Bases de Datos • 18 Información de soporte para el requisito: No existe información adicional además de las mencionadas como origen de la información. Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 1.2.1. COMPRENSIÓN DE LOS DATOS • Datos iniciales: El estudio que vamos a llevar acabo requiere primero de una preparación de los datos, ya que contamos con una gran base de datos en bruto que necesita de primer tratamiento selectivo. El tratamiento realizado en este caso ha sido el de seleccionar los campos que más nos convienen para encontrar patrones de conducta referente a la formación de cada preso, así que hemos desestimado muchos campos referentes a su tratamiento y comportamiento dentro del penal. Al seguir teniendo una muestra muy grande para mejorar la calidad de los datos, hemos dividido la tabla muestral en cuatro tablas con seleccionadas por el tipo de delito ESTUPEFACIENTES, ROBO Y HURTO, HOMICIDIOS DOLOSOS, VIOLACIONES. Para una mayor compresión de los datos y a modo de mejorar la calidad de los mismos los hemos pasado todos a letra para poder aumentar la legibilidad de los resultados y conseguir una mayor interpretación. • Descripción de los datos Las bases de datos necesarias para alcanzar nuestros objetivos, se citan a continuación: o MAECENSO · En esta tabla (tabla 8) nos encontramos los datos de la población presa en Argentina, desde datos concretos del propio preso hasta su comportamiento dentro del centro penitenciario. Atributo Sexo Nacionalidad estadoCivil nivelInstruc ulSitLaboral sitLegal idDeli1 partiProgLabo partiProgEdu partiActivDepo califConducta tenFugasEvas tenSuicidio fueLesionado tieneMedSegu partiProgPreLib tuvoReducPena Descripción Sexo del preso País de nacimiento Estado civil Nivel de estudios Ultima situación laboral del preso Situación legal Delito cometido Participa en programa laboral Participa en programa educativo Participa en actividades deportivas Calificación de su conducta Tentativas de fuga Tentativas de suicídio Fue lesionado dentro de la prisión Tiene seguro médico Participa en programa de prelibertad Tuvo reducción de la pena Valores posibles Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Alfanumérico Tabla 8. Atributos y descripción 19 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes • Exploración de los datos o Suposiciones para futuros análisis: Como primera aproximación, podemos observar cómo dependiendo del delito cometido la edad de los presos oscila, siendo el robo y hurto el robo más común entre los jóvenes con una media de 27 años. En el homicidio sí que apreciamos que la edad media sube, lo que se puede interpretar como una consecuencia de la implicación humana del delito de matar a otra persona. Respecto a los delitos relacionados con estupefacientes, podemos observar que las edades oscilan entre 17 y 76 años. Esto se debe a varias cuestiones, la principal se debe a que el mercado de los estupefacientes cubre varias etapas, desde su distribución y venta en sus varias fases hasta el propio consumo. Es por ello que las edades sean tan dispares y no podamos fiarnos de la media que sería de 37 años. Los casos de los ancianos también se deben en muchas ocasiones a los propios clanes familiares de narcos donde trabajan desde los chicos pequeños hasta los familiares más ancianos. Tanto en el caso de los presos por delitos de estupefacientes, robos y homicidios nos encontramos con pocos recursos económicos, falta de laburo y unos estudios primarios o escasos. Dentro del área de las violaciones observamos que se trata en la mayoría de los casos de hombres con estudios medios (entre primaria y polimodal) y casi siempre solteros y con cierta estabilidad laboral. • Reporte de calidad de datos: Nos encontramos con información bastante bien tratada y con un índice bajo de errores. Para el tratamiento de cada dato hemos valorado separar los datos vacíos de los no determinados es por ello que hemos puesto “No definido” cuando el dato que encontrábamos no estaba dentro de la Tabla de códigos de la base de datos. Y el valor “Vacío” cuando la celda estaba vacía. Dejamos constancia que en valores alfanuméricos el valor “Vacío” tiene el número 16. Encontramos los siguientes puntos a resaltar: • 20 Llegamos a las mismas conclusiones que en el primer requisito. Los datos más completos son los adquiridos cuando el prisionero entré en el penal, que son los referidos a su pasado. En cambio, los datos internos referidos a la vida del sujeto en prisión, son los más incompletos. Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 1.2.2. PREPARACIÓN DE LOS DATOS • Preparación de Dataset En este caso hemos tenido que hacer un pequeño DataSet, ya que nos encontrábamos que la capacidad operativa de la computadora no podía trabajar con más de 5000 registros, así que buscamos una muestra representativa y ordenada aleatoriamente. La estrategia a seguir en la formación de este Dataset ha sido: primero la de tomar una muestra representativa de unos 4000 registros de toda la base de datos, después seleccionar los campos que hemos creído importantes para nuestros objetivos. Nos vimos en la tesitura de que se nos seguía quedando una tabla de gran volumen y no queríamos rebajar la muestra en cuanto a delitos para no perder información y calidad, así que separamos la tabla principal en cuatro tablas basándonos en los cuatro delitos claves de nuestros objetivos. Después estudiamos los datos para que fueran lo más representativos posibles e incluimos alguno de los registros que habían quedado fuera de la selección aleatoria para mejorar su calidad. De esta manera afirmamos que los datos están preparados para ser modelados con las herramientas de minería de datos que nos sean necesarias. Contamos con una tabla de un volumen considerable pero con datos limpios y preparados ser tratados y localizados los requisitos en cuestión, así que esperamos que la interpretación de los mismos sea lo más real y acertada posible. • Preparación de datos para herramientas Para trabajar con las distintas herramientas de Minería de Datos, debemos hacer un reajuste de algunos de los valores de las observaciones, ya que cada herramienta tiene unos requisitos de configuración y preparación de datos para luego ser ejecutado. Por un lado, vamos a trabajar con NNclust, el cual requiere que todos los valores que se manejen sean numéricos, que en este caso no será el problema ya que la tabla final es numérica en todos sus atributos, y además que no haya ningún valor vacío, para este ejemplo sí hemos tenido que hacer modificaciones para acoplar dicha tabla a los requisitos. Y por otro lado, vamos a trabajar con Weka, que no tiene ningún problema para trabajar con valores tanto numéricos como alfanuméricos, pudiendo además tratar los valores que aparecen vacíos. Se van a hacer modificaciones, por tanto, para trabajar con NNclust, pero también mantendremos esas modificaciones para trabajar con Weka, ya que podría dar lugar a resultados erróneos. Los valores de los campos modificados o codificados a alfanuméricos quedarían así: Sexo Femenino 1 Masculino 2 21 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Estado civil Casado 1 Soltero 2 Concubino 3 Separado o divorciado 4 Viudo 5 Separado de hecho 6 Nivel de instrucción: Primario incompleto 1 Primario completo 2 Secundario incompleto 3 Secundario completo 4 Terciario incompleto 5 Terciario completo 6 Universitario incompleto 7 Universitario completo 8 Ninguno 9 Ultima situación laboral Desocupado 1 Trabajador de tiempo parcial 2 Trabajador de tiempo completo 3 Situación legal Procesado 1 Condenado 2 Inimputable 3 Otra situación 4 Lugar de residencia Urbano 1 Rural 2 Delitos cometidos Estupefacientes 1 Homicidios dolosos 2 Robo y/o tentativa de robo 3 Participa en programa laboral Si 1 No 2 Participa en programa Educacional No participa de ningún programa educativo 1 Si - educación no forma 2 Si - educación formal – POLIMODAL 3 Si - educación formal – EGB 4 Si - educación formal – UNIVERSITARIA 5 Si - educación formal – TERCIARIA 6 22 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Participa en un programa deportivo Si 1 No 2 Conducta Mala 1 Buena 2 Muy buena 3 Ejemplar 4 Pésima 5 No definida 6 No definido 5 Tentativas de fuga Si 1 No 2 Tentativas de suicidio Si 1 No 2 Participa en algún programa de reducción e pena No está incorporado 1 Si está incorporado 2 Tuvo reducción de pena No tuvo reducción de pena 1 Si hasta 6 meses 2 Nacionalidad Argentina 1 Boliviana 2 Brasileña 3 Chilena 4 Paraguaya 5 Uruguaya 6 Peruana 7 Colombiana 8 Ecuatoriana 9 Española 10 Italiana 11 Inglesa 12 China 13 Sudafricana 14 Otras 15 23 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Participa en altercados del orden No 1 SI - Alteración del orden con heridos o muertos 2 SI - Alteración del orden SIN heridos, ni rehenes 3 SI - Alteración del orden con daños 4 SI - Alteración del orden con rehenes 5 Tentativas de fuga Si 1 No 2 Horas de trabajo remunerado Hasta 10 horas semanales 1 Hasta 20 horas semanales 2 Hasta 30 horas semanales 3 Hasta 40 horas semanales 4 No tiene trabajo remunerado Capacitación laboral al ingresar No tiene ni oficio ni profesión 1 Tiene algún oficio 2 Tiene alguna profesión 3 24 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 1.2.3. MODELADO A. Resultados obtenidos aplicando clustering La herramienta que vamos a utilizar en el proceso de clustering será NNclust. Esta herramienta está basada en el algoritmo SOM. Tenemos una matriz de NxN neuronas que decidimos arrancar la ejecución con N=4. Tras la primera ejecución, obtenemos el siguiente resultado en cada una de las cuatro tablas: o Estupefacientes: Cluster Sizes Cluster 1 Cluster 2 Cluster 3 Cluster 4 61 41 702 2194 Tabla 8. Clasificación de Clusters o Robos y hurtos: Cluster Sizes Cluster 1 Cluster 2 Cluster 3 Cluster 4 1 3 22 2073 Tabla 9. Clasificación de Clusters o Homicidios: Cluster Sizes Cluster 1 Cluster 2 Cluster 3 Cluster 4 3 15 385 1362 Tabla 10. Clasificación de Clusters o Violaciones: Cluster Sizes Cluster 1 Cluster 2 Cluster 3 Cluster 4 3 19 120 2359 Tabla 11. Clasificación de Clusters Como podemos ver en las cuatro divisiones, nos encontramos con 4 Cluster que guardan la misma morfología, en los primeros cluster selecciona las observaciones más atípicas o con mayor grado de información vacía o no definida. Después encontramos que entre el cluster 3 y 4 están las observaciones que nos aportan más información, aunque hemos visto que no se ha conseguido hacer una división fiable dividida por grupos con ciertas características concretas. La tabla de las medias nos revela algunas características propias del estudio que pasaremos a valorar más adelante. 25 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Los valores de las tablas de medias (tablas 12, 13, 14 y 15) es la siguiente: o Estupefacientes: Edad Sexo Nacionalidad estadoCivil nivelInstruc ulSitLaboral sitLegal partiProgLabo partiProgEdu partiActivDepo califConducta tenFugasEvas tenSuicidio partiProgPreLib tuvoReducPena Cluster Means Cluster 1 Cluster 2 Cluster 3 Cluster 4 34,7 30,9 35,7 37,0 2,0 1,6 1,6 1,8 1,7 1,6 2,3 2,1 2,1 2,4 2,1 2,2 2,0 2,8 3,1 2,7 1,6 1,2 1,6 1,9 1,8 1,0 1,1 1,6 16,0 15,3 2,2 1,8 2,0 1,4 1,9 2,2 1,5 1,3 1,4 1,3 4,4 9,2 8,2 4,7 2,0 2,0 2,4 2,0 2,0 2,0 6,6 2,4 1,1 8,3 10,7 1,1 1,5 16,0 10,7 1,2 Tabla 12. Medias de los Clusters o Robos y hurtos: Edad Sexo Nacionalidad estadoCivil nivelInstruc ulSitLaboral sitLegal partiProgLabo partiProgEdu partiActivDepo califConducta tenFugasEvas tenSuicidio partiProgPreLib Cluster Means Cluster 1 Cluster 2 Cluster 3 Cluster 4 37,0 24,0 29,3 27,1 2,0 2,0 2,0 2,0 1,0 1,0 1,3 1,2 2,0 2,0 1,8 2,0 2,0 3,3 1,5 2,4 3,0 2,7 1,0 1,7 1,0 1,3 1,3 1,6 2,0 2,0 2,0 2,3 4,0 2,7 1,7 2,6 1,0 1,0 1,0 1,1 4,0 2,7 4,2 4,0 16,0 16,0 2,0 2,0 16,0 16,0 16,0 2,0 1,0 1,0 1,0 1,1 Tabla 13. Medias de los Clusters 26 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes o Homicidios: Edad Sexo Nacionalidad estadoCivil nivelInstruc ulSitLaboral sitLegal partiProgLabo partiProgEdu partiActivDepo califConducta tenFugasEvas tenSuicidio partiProgPreLib tuvoReducPena Cluster Means Cluster 1 Cluster 2 Cluster 3 Cluster 4 57,3 29,3 31,7 34,2 1,0 1,0 2,0 2,0 1,0 1,1 1,1 1,0 5,0 1,9 2,0 2,1 3,0 3,4 3,0 2,7 2,3 1,2 2,5 1,7 2,0 2,0 1,7 1,6 16,0 16,0 16,0 5,6 16,0 16,0 16,0 5,8 16,0 16,0 16,0 1,2 16,0 16,0 16,0 5,1 2,0 2,0 4,8 2,1 16,0 16,0 16,0 2,0 16,0 16,0 16,0 6,6 1,7 1,1 7,7 2,9 Tabla 14. Medias de los Clusters o Violaciones: Edad Sexo Nacionalidad estadoCivil nivelInstruc ulSitLaboral sitLegal partiProgLabo partiProgEdu partiActivDepo califConducta tenFugasEvas tenSuicidio partiProgPreLib Cluster Means Cluster 1 Cluster 2 Cluster 3 Cluster 4 34,7 35,8 38,9 38,1 1,7 2,0 2,0 2,0 2,0 1,0 1,1 1,1 2,7 1,9 2,2 2,1 1,7 1,6 2,8 3,0 0,7 2,3 2,5 2,0 1,0 1,2 1,9 1,6 16,0 16,0 15,8 2,4 16,0 16,0 15,8 2,1 16,0 16,0 15,8 1,2 16,0 15,5 15,8 4,4 16,0 15,3 6,0 2,3 16,0 16,0 15,8 2,3 16,0 16,0 15,8 2,2 Tabla 15. Medias de los Clusters El único problema con el que nos encontramos aquí es que NNclust trabaja con datos numéricos, entonces al pasar la información a número, las medias no nos aproximan a datos concretos, ya que no se puede ser medio argentina medio extranjera o haber cometido una medio violación. La división que consigue no es del todo buena, aunque sí que vemos cómo se quita la observación más atípica o que tienen información inconclusa. Eso lo podemos observar porque la media es 16 o cercana a 16, que es el valor que le hemos 27 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes adjudicado al valor “Vacío” o “No definido”. En el tratamiento de las demás lo más destacable esta en el cluster 4 donde se aglutinan los datos que más información aportan. B. Conclusiones en base a los resultados obtenidos en el proceso de clustering Con los resultados obtenidos con NNclust en las cuatro tablas podemos hacer varias conclusiones: a. Primer advertir que el proceso de clustering ha respondido de forma muy parecida en las cuatro corridas, consiguiendo agrupar las observaciones más incompletas entre los dos primeros clustering y dejando el tercero para las observaciones completas más atípicas y el cuarto de ellos para la agrupación más común y mayoritaria. b. Podemos observar que el perfil de los presos condenados por violación es de un varón con un trabajo estable o a tiempo parcial, con una edad comprendida entre 30 y 40 año,s con una formación académica de nivel medio, entre secundaria completa e incompleta. Su conducta dentro de los centros penitenciaria suele ser ejemplar y participando en los distintos programa educativos o laborales que se le ofrecen. Todo esto lo interpretamos por el aislamiento al que son sometidos los presos por causas de este tipo dentro del código interno de los propios presos, lo que les lleva a no entrar dentro de ninguno de los grupos de influencia que coexisten dentro de las cárceles argentinas. Más allá de eso, los violadores son enfermos mentales con trastornos graves en la autoestima pero que se mimetizan bien en los códigos de buen compartimiento civil. c. En el caso de las personas presas por delitos de hurtos y/o robo, suele ser una persona de unos 27 años como media, así fijándonos en el rango que va desde 17 años a 71 años y con una dispersión de la media no muy pequeña, podemos concluir que la distribución es homogénea y que aunque nos concentremos en una edad de entre 20 y 30 años el tipo de delito es cometido tanto por adultos como por jóvenes. Este dato nos aboca a pensar que nos encontramos ante un problema social que no entiende más que de necesidad. Podemos afirmar que menos del 2% de las personas presas por este delito son mujeres. Sobre la nacionalidad vemos la proporción es más por cercanía que por una cuestión social, ya que el volumen más alto de observaciones son de personas argentinas, luego uruguayas y finalmente bolivianos, así que por esta rama no podemos concluir una interpretación etimológica del delito frente a la nacionalidad de quien lo comete. También podemos ver la condición social y afectiva del preso por robo. Primero se da que es una persona soltera con pocos ingresos, ya que se encuentran en su mayoría desocupados o en algunos casos con laburo a tiempo parcial. Los casos de los que se encontraban con trabajo a tiempo completo son los más escasos e interpretamos que se trata de robos donde la necesidad no es la causa. 28 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Se puede observar que dichos presos se caracterizan por tener una formación académica muy baja, rondando el nivel primario completo y en algunos casos iniciando el secundario. Una vez dentro de los centros penitenciarios, los presos por delitos de robo y/o hurto terminan estudiando educación formal, cada uno en el punto en donde lo dejó, principalmente en EGB, pero todavía queda una población presa muy grande que no participa en estos programas. d. Estudiando los resultados del clustering en la tabla de presos por homicidio, nos encontramos con patrones de conducta parecidos al estereotipo de los presos por robo, pero con la diferencia de la edad, que en el caso de homicidio sube considerablemente a 34 años de media con una dispersión de la media bastante alta, (desviación típica de 11) así que no podemos concluir que la edad de los homicidas pueda ser más alta proporcionalmente sino que existe una distribución homogénea de edades entre 17 y 72 años. En lo demás las características son muy similares: varones desocupados o con trabajos a tiempo parcial con una formación académica un poco más alta que en el caso de robos, pero esto es debido a que existe una distribución más homogénea de la edad de los presos y por lo tanto nos encontramos con que el 2% son universitarios, el 20% tienen terminada la EGB y el resto tienen estudios inferiores o no tienen estudios. Podemos observar que la conducta del preso es Ejemplar, aunque en la tabla de medias nos engaña ya que sale justamente 5.1 (pésima), pero es porque en la agrupación que hace NNclust deja alrededor de 8% de los datos “Vacíos” que al pasarlo de tipo alfanuméricos a numéricos se transforman en 16 y eleva la media de 4 a 5,1. De hecho nos encontramos que sólo el 4% de la población presa por delitos de homicidio tienen una conducta mala y pésima. Sobre la participación de dichos presos en programas de resocialización, podemos afirmar que más del 50% no participan ni en programas educativos y laborales, lo que se debe a que el tratamiento penitenciario por los delitos cometidos no les da la oportunidad de participar en dichos programas. Cabe destacar que la similitud entre los presos por homicidio y por robo es tan fuerte porque es una construcción social de un sujeto que, ligado a la marginalidad, sigue un proceso de destrucción personal que le lleva primero a delinquir en pequeños hurtos y luego, tras la desesperación de no mejora, termina encontrándose con situaciones más complejas que en muchos casos llevan al homicidio. También hay que tener en cuenta el crimen organizado al que muchos de ellos terminan adhiriéndose por la misma situación social. e. Por último vamos a realizar la interpretación de los resultados del clustering de la tabla de los presos por delitos relacionados con estupefacientes. El primer dato a tener en cuenta es que es la principal causa de condena, lo que nos indica cómo influyen los estupefacientes en la sociedad argentina y por extensión a la de cualquier sociedad subdesarrollada (principalmente). También hay que ser consciente de que estamos ante un delito en el que entra un juego de mercado, por lo tanto hay varias fases y varios niveles de implicación e intermediarios. 29 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes El estereotipo resultante del proceso de clustering nos dice que la persona condenada por delitos de estupefacientes es un varón (aunque encontramos un índice más alto de mujeres que en los delitos anteriormente interpretados) de una edad media de 37 años, en la que podemos ver que en este caso si se corresponde con la realidad ya que más de la mitad de los presos superan los 30 años. Esto se debe a que los primeros delitos relacionados con estupefacientes suelen cometerse a pronta edad, pero son faltas leves por las cuales no ingresan en prisión, más adelante y de manera reincidente, sí son encarcelados. Es por ello que la edad de los presos sube considerablemente en referencia a los demás delitos analizados. Encontramos además un alto índice de presos con más de 50 años, lo cual puede deberse a dos factores: 1.- Las condenas reincidentes por estupefacientes son largas y el censo está realizado en el 2004, por lo tanto muchos de los presos ingresaron en centros penitenciarios mucho más jóvenes. Esto lo corroboramos con el campo “SitLegal”, que nos indica la situación legal de los presos y donde podemos ver que más del 50% están ya condenados. 2.- Dentro del mercado de las drogas coexiste el crimen organizado y dichas organizaciones están dotadas de estructuras verticales donde muchos de los puestos de más poder van relacionados, entre otros factores, por la edad de sus miembros. Es por ello que cuando desmantelan dichos clanes nos encontramos con que muchos de sus miembros superan los 40 y 50 años. Para no repetirnos mucho vemos que el perfil es muy similar al preso por delitos de robo y/o hurto, básicamente se puede cerciorar esta afirmación viendo la correlación entre el mundo de las drogas y el robo. Es casi una simbiosis de necesidad dentro de un entorno de marginalidad, es por ello que los focos de procedencia de la problemática es el mismo, es el de la mala formación, pocos recursos económicos y nula integración social. 30 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes C. Proceso de Inducción Para esta fase, vamos a utilizar la herramienta Weka. Del resultado del proceso de clustering obtuvimos unas tablas con nuestras observaciones clasificadas por el número de cluster asignado. Como la agrupación que resultó del clustering nos vino a agrupar los datos con mayor calidad, realizaremos el proceso de inducción con los datos agrupados en el cluster 4 de cada una de las tablas obtenidas en los cuatro delitos que estamos tratando. En primer lugar, hemos tenido que volver a retocar los datos. El problema está esta vez en Weka, ya que para trabajar con su algoritmo de clasificación J48 (C4.5), nos exige que la clase sea de tipo nominal y no numérica. 1. Weka con tabla de Estupefacientes: Los resultados obtenidos con Weka son los siguientes: Tabla de Estupefacientes (Participa en algún programa laboral) Correctly Classified Instances Incorrectly Classified Instances 93.7574 % 6.2426 % === Matriz de confusión === a b c <-- classified as 729 2 4 | a = No 30 42 0 | b = Si 16 1 25 | c = Vacio Figura 2. Matriz de confusión y clasificación de instancias El resultado parece bastante aceptable. La confianza que nos ofrece es del 93.7%, que es muy buena. El árbol de decisión desarrollado es el siguiente: nivelInstruc = Primario_incompleto: No nivelInstruc = Secundario_incompleto | sitLegal = Procesado: No | sitLegal = Condenado | | ulSitLaboral = Desocupado: No | | ulSitLaboral = Trabajor_de_tiempo_parcial | | | estadoCivil = Concubino: No | | | estadoCivil = Separado_de_hecho: Si | | | estadoCivil = Soltero: Si | | | estadoCivil = Casado: Si | | | estadoCivil = Viudo: Si | | | estadoCivil = Separado_o_divorciado: Si | | | estadoCivil = 0.0: Si | | ulSitLaboral = Trabajor_de_tiempo_completo: No | | ulSitLaboral = 0.0: No | sitLegal = Otra_situacion: Si 31 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes nivelInstruc = Primario_completo | partiActivDepo = No | | partiProgPreLib = Vacío: No | | partiProgPreLib = No_está_incorporado | | | tuvoReducPena = Vacío: Vacío | | | tuvoReducPena = No_tuvo_reduccion_de_pena | | | | sitLegal = Procesado: No | | | | sitLegal = Condenado | | | | | tieneMedSegu = No | | | | | | califConducta = No_definido: Vacío | | | | | | califConducta = Muy_buena | | | | | | | Edad <= 33: Vacío | | | | | | | Edad > 33: No | | | | | | califConducta = Ejemplar: Vacío | | | | | | califConducta = Buena | | | | | | | Edad <= 33: No | | | | | | califConducta = Mala: Vacío | | | | | | califConducta = Pesima: Vacío | | | | | tieneMedSegu = Vacío: No | | | | | tieneMedSegu = Si: No | | | | sitLegal = Otra_situacion: No | | | tuvoReducPena = Si_-_Hasta_6_meses: No | | partiProgPreLib = Si_está_incorporado: Vacío | partiActivDepo = Si | | tuvoReducPena = Vacío | | | fueLesionado = No_fue_lesionado | | | | Nacionalidad = Bolivia: No | | | | Nacionalidad = Argentina | | | | | califConducta = No_definido: Vacío | | | | | califConducta = Muy_buena: Si | | | | | califConducta = Ejemplar: Si | | | | | califConducta = Vacío: No | | | fueLesionado = Si-_por_otros_motivos: No | | | fueLesionado = Si-_por_hechos_prod._por_otros_internos: No | | | fueLesionado = Vacío: No | | | fueLesionado = Si-_por_hechos_prod._por_agentes_del_mismo: No | | tuvoReducPena = No_tuvo_reduccion_de_pena: No | | tuvoReducPena = Si_-_Hasta_6_meses: No nivelInstruc = Secundario_completo: No nivelInstruc = Universitario_incompleto: No nivelInstruc = Ninguno: No nivelInstruc = terciario_completo: No nivelInstruc = Universitario_completo: No | Edad <= 31: Si | Edad > 31: No nivelInstruc = 15.0: No nivelInstruc = terciario_incompleto: No Número de niveles: Tamaño del árbol: 32 71 88 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 2. Weka con tabla de Violaciones: Tabla de Violaciones (Participa en algún programa laboral) Correctly Classified Instances 90.8235 % Incorrectly Classified Instances 9.1765 % === Matriz de confusión === a b c <-- classified as 587 0 12 | a = No 9 6 6 | b = Vacio 51 0 179 | c = Si Figura 3. Matriz de confusión y clasificación de instancias El resultado parece bastante aceptable. La confianza que nos ofrece es del 90,8%, que es muy buena. El árbol de decisión desarrollado es el siguiente: partiProgEdu = Si_-_educación_formal_-_UNIVERSIARIA: No partiProgEdu = No_participa_de_ningún_programa_educativo: No partiProgEdu = Si_-_educación_formal_-_EGB | califConducta = Ejemplar: No | califConducta = Buena: No ( | califConducta = Muy_buena: No | califConducta = No_definida: Si | califConducta = Vacío: No | califConducta = Pesima: Si | califConducta = Mala: No partiProgEdu = Si_-_educación_formal_-_POLIMODAL | califConducta = Ejemplar: No | califConducta = Buena: No | califConducta = Muy_buena: No | califConducta = No_definida: Si | califConducta = Vacío: No | califConducta = Pesima: No | califConducta = Mala: No partiProgEdu = Vacío: Vacío partiProgEdu = Si_-_educación_no_forma | tieneMedSegu = No: No ( | tieneMedSegu = Vacío: Si | tieneMedSegu = Si: Si partiProgEdu = Si_-_educación_formal_-_TERCIARIA: No Número de niveles: Tamaño del árbol: 21 25 33 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 3. Weka con tabla de Homicidios: Tabla de Homicidios (Situación laboral antes del ingreso) Correctly Classified Instances 72.4706 % Incorrectly Classified Instances 27.5294 % === Matriz de confusión === a b c d <-- classified as 77 57 30 0 | a = Trabajor_de_tiempo_completo 8 322 58 0 | b = Trabajor_de_tiempo_parcial 11 69 217 0 | c = Desocupado 0 1 0 0 | d = Vacio Figura 4. Matriz de confusión y clasificación de instancias El resultado parece aceptable. La confianza que nos ofrece es del 72,4%. El árbol de decisión desarrollado es el siguiente: partiProgEdu = No_participa_de_ningún_programa_educativo | Edad = 25.0 | | estadoCivil = Soltero: Desocupado | | estadoCivil = Vacío: Desocupado | | estadoCivil = Casado: Desocupado | | estadoCivil = Separado_o_divorciado: Desocupado | | estadoCivil = Separado_de_hecho: Desocupado | | estadoCivil = Concubino: Trabajor_de_tiempo_parcial | | estadoCivil = Viudo: Desocupado | Edad = 22.0: Desocupado | Edad = 31.0 | | estadoCivil = Soltero: Trabajor_de_tiempo_parcial | | estadoCivil = Vacío: Trabajor_de_tiempo_parcial | | estadoCivil = Casado: Trabajor_de_tiempo_completo | | estadoCivil = Separado_o_divorciado: Trabajor_de_tiempo_parcial | | estadoCivil = Separado_de_hecho: Trabajor_de_tiempo_parcial | | estadoCivil = Concubino: Trabajor_de_tiempo_parcial | | estadoCivil = Viudo: Trabajor_de_tiempo_parcial | Edad = 23.0: Desocupado | Edad = 44.0 | | partiActivDepo = Si: Desocupado | | partiActivDepo = No: Trabajor_de_tiempo_parcial | | partiActivDepo = Vacío: Trabajor_de_tiempo_completo | Edad = 36.0: Trabajor_de_tiempo_parcial | Edad = 27.0 | | partiProgPreLib = No_está_incorporado: Trabajor_de_tiempo_parcial | | partiProgPreLib = Vacío: Desocupado (11.0/1.0) | | partiProgPreLib = Si_está_incorporado: Desocupado | Edad = 26.0: Trabajor_de_tiempo_parcial | Edad = 34.0: Trabajor_de_tiempo_parcial | Edad = 38.0 | | tieneMedSegu = No | | | califConducta = Ejemplar: Desocupado 34 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | califConducta = Buena: Trabajor_de_tiempo_completo | | califConducta = Mala: Trabajor_de_tiempo_completo | | califConducta = Muy_buena: Trabajor_de_tiempo_parcial | | califConducta = No_definida: Trabajor_de_tiempo_completo | | califConducta = Pesima: Trabajor_de_tiempo_completo | | califConducta = Vacío: Trabajor_de_tiempo_completo | tieneMedSegu = Si: Desocupado | tieneMedSegu = Vacío: Desocupado Edad = 59.0: Trabajor_de_tiempo_completo Edad = 28.0 | partiProgPreLib = No_está_incorporado: Trabajor_de_tiempo_parcial | partiProgPreLib = Vacío | | califConducta = Ejemplar: Trabajor_de_tiempo_completo | | califConducta = Buena: Trabajor_de_tiempo_parcial | | califConducta = Mala: Trabajor_de_tiempo_parcial | | califConducta = Muy_buena: Trabajor_de_tiempo_parcial | | califConducta = No_definida: Trabajor_de_tiempo_completo | | califConducta = Pesima: Trabajor_de_tiempo_parcial | | califConducta = Vacío: Trabajor_de_tiempo_parcial | partiProgPreLib = Si_está_incorporado: Desocupado Edad = 30.0 | estadoCivil = Soltero: Trabajor_de_tiempo_parcial | estadoCivil = Vacío: Trabajor_de_tiempo_parcial | estadoCivil = Casado: Desocupado | estadoCivil = Separado_o_divorciado: Trabajor_de_tiempo_parcial | estadoCivil = Separado_de_hecho: Trabajor_de_tiempo_parcial | estadoCivil = Concubino: Trabajor_de_tiempo_completo | estadoCivil = Viudo: Trabajor_de_tiempo_parcial Edad = 21.0 | estadoCivil = Soltero | | partiActivDepo = Si: Desocupado | | partiActivDepo = No: Trabajor_de_tiempo_parcial | | partiActivDepo = Vacío: Desocupado | estadoCivil = Vacío: Desocupado | estadoCivil = Casado: Desocupado | estadoCivil = Separado_o_divorciado: Desocupado | estadoCivil = Separado_de_hecho: Desocupado | estadoCivil = Concubino: Trabajor_de_tiempo_parcial | estadoCivil = Viudo: Desocupado Edad = 33.0 | tieneMedSegu = No | | sitLegal = Procesado: Desocupado | | sitLegal = Condenado | | | califConducta = Ejemplar: Trabajor_de_tiempo_completo | | | califConducta = Buena: Desocupado | | | califConducta = Mala: Trabajor_de_tiempo_completo | | | califConducta = Muy_buena: Trabajor_de_tiempo_completo | | | califConducta = No_definida: Trabajor_de_tiempo_completo | | | califConducta = Pesima: Trabajor_de_tiempo_completo | | | califConducta = Vacío: Trabajor_de_tiempo_completo 35 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes | | | sitLegal = Inimputable: Desocupado | | | sitLegal = Otra_situacion: Desocupado | | tieneMedSegu = Si: Trabajor_de_tiempo_completo | | tieneMedSegu = Vacío: Trabajor_de_tiempo_completo | Edad = 24.0 | | tieneMedSegu = No | | | tuvoReducPena = No_tuvo_reduccion_de_pena: Desocupado | | | tuvoReducPena = Vacío: Desocupado | | | tuvoReducPena = Si_-_Hasta_6_meses: Trabajor_de_tiempo_parcial | | | tuvoReducPena = 2.0: Desocupado | | | tuvoReducPena = 3.0: Desocupado | | tieneMedSegu = Si: Trabajor_de_tiempo_parcial | | tieneMedSegu = Vacío: Trabajor_de_tiempo_completo | Edad = 58.0: Trabajor_de_tiempo_parcial | Edad = 56.0 | | nivelInstruc = Vacío: Trabajor_de_tiempo_completo | | nivelInstruc = Primario_completo: Trabajor_de_tiempo_completo | | nivelInstruc = Primario_incompleto: Trabajor_de_tiempo_parcial | | nivelInstruc = Secundario_incompleto: Trabajor_de_tiempo_completo | | nivelInstruc = Ninguno: Trabajor_de_tiempo_completo | | nivelInstruc = Universitario_incompleto: Trabajor_de_tiempo_completo | | nivelInstruc = Secundario_completo: Trabajor_de_tiempo_completo | | nivelInstruc = terciario_incompleto: Trabajor_de_tiempo_completo | | nivelInstruc = Universitario_completo: Trabajor_de_tiempo_completo | Edad = 49.0: Trabajor_de_tiempo_parcial | Edad = 40.0 | | tuvoReducPena = No_tuvo_reduccion_de_pena: Trabajor_de_tiempo_parcial | | tuvoReducPena = Vacío: Trabajor_de_tiempo_parcial | | tuvoReducPena = Si_-_Hasta_6_meses: Desocupado | | tuvoReducPena = 2.0: Trabajor_de_tiempo_parcial | | tuvoReducPena = 3.0: Trabajor_de_tiempo_parcial | Edad = 20.0 | | partiActivDepo = Si: Trabajor_de_tiempo_parcial | | partiActivDepo = No: Desocupado | | partiActivDepo = Vacío: Trabajor_de_tiempo_parcial | Edad = 39.0 | | partiProgLabo = No: Trabajor_de_tiempo_parcial | | partiProgLabo = Vacío: Trabajor_de_tiempo_completo | | partiProgLabo = Si: Trabajor_de_tiempo_completo | Edad = 51.0: Trabajor_de_tiempo_parcial | Edad = 48.0 | | partiActivDepo = Si: Trabajor_de_tiempo_parcial | | partiActivDepo = No: Trabajor_de_tiempo_completo | | partiActivDepo = Vacío: Trabajor_de_tiempo_completo | Edad = 64.0: Desocupado | Edad = 45.0: Desocupado | Edad = 42.0 | | tieneMedSegu = No | | | estadoCivil = Soltero: Trabajor_de_tiempo_parcial 36 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | estadoCivil = Vacío: Trabajor_de_tiempo_parcial | | estadoCivil = Casado: Desocupado | | estadoCivil = Separado_o_divorciado: Trabajor_de_tiempo_parcial | | estadoCivil = Separado_de_hecho: Trabajor_de_tiempo_parcial | | estadoCivil = Concubino: Desocupado | | estadoCivil = Viudo: Trabajor_de_tiempo_parcial | tieneMedSegu = Si: Trabajor_de_tiempo_completo | tieneMedSegu = Vacío: Trabajor_de_tiempo_parcial Edad = 62.0: Trabajor_de_tiempo_parcial Edad = 29.0 | tieneMedSegu = No | | partiProgPreLib = No_está_incorporado: Trabajor_de_tiempo_parcial | | partiProgPreLib = Vacío: Desocupado | | partiProgPreLib = Si_está_incorporado: Trabajor_de_tiempo_completo | tieneMedSegu = Si: Desocupado | tieneMedSegu = Vacío: Trabajor_de_tiempo_parcial Edad = 35.0 | sitLegal = Procesado: Trabajor_de_tiempo_completo | sitLegal = Condenado | | nivelInstruc = Vacío: Trabajor_de_tiempo_parcial | | nivelInstruc = Primario_completo: Desocupado | | nivelInstruc = Primario_incompleto: Trabajor_de_tiempo_parcial | | nivelInstruc = Secundario_incompleto: Trabajor_de_tiempo_completo | | nivelInstruc = Ninguno: Trabajor_de_tiempo_parcial | | nivelInstruc = Universitario_incompleto: Trabajor_de_tiempo_parcial | | nivelInstruc = Secundario_completo: Trabajor_de_tiempo_parcial | | nivelInstruc = terciario_incompleto: Trabajor_de_tiempo_parcial | | nivelInstruc = Universitario_completo: Trabajor_de_tiempo_parcial | sitLegal = Inimputable: Trabajor_de_tiempo_completo | sitLegal = Otra_situacion: Trabajor_de_tiempo_completo Edad = 19.0 | sitLegal = Procesado: Desocupado | sitLegal = Condenado: Trabajor_de_tiempo_parcial | sitLegal = Inimputable: Desocupado | sitLegal = Otra_situacion: Desocupado Edad = 63.0: Trabajor_de_tiempo_completo Edad = 18.0: Desocupado Edad = 32.0: Trabajor_de_tiempo_parcial Edad = 37.0 | califConducta = Ejemplar: Trabajor_de_tiempo_parcial | califConducta = Buena: Desocupado | califConducta = Mala: Trabajor_de_tiempo_parcial | califConducta = Muy_buena: Trabajor_de_tiempo_parcial | califConducta = No_definida: Desocupado | califConducta = Pesima: Trabajor_de_tiempo_parcial | Edad = 55.0 | estadoCivil = Soltero: Trabajor_de_tiempo_completo | estadoCivil = Vacío: Trabajor_de_tiempo_completo | estadoCivil = Casado: Trabajor_de_tiempo_completo 37 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes | | estadoCivil = Separado_o_divorciado: Desocupado | | estadoCivil = Separado_de_hecho: Trabajor_de_tiempo_completo | | estadoCivil = Concubino: Desocupado | | estadoCivil = Viudo: Trabajor_de_tiempo_completo | Edad = 53.0: Trabajor_de_tiempo_parcial | Edad = 60.0: Trabajor_de_tiempo_completo | Edad = 54.0 | | sitLegal = Procesado: Desocupado | | sitLegal = Condenado | | | partiActivDepo = Si: Trabajor_de_tiempo_completo | | | partiActivDepo = No: Trabajor_de_tiempo_parcial | | | partiActivDepo = Vacío: Trabajor_de_tiempo_parcial | | sitLegal = Inimputable: Trabajor_de_tiempo_parcial | | sitLegal = Otra_situacion: Trabajor_de_tiempo_parcial | Edad = 57.0 | | estadoCivil = Soltero: Trabajor_de_tiempo_parcial | | estadoCivil = Vacío: Trabajor_de_tiempo_completo | | estadoCivil = Casado: Trabajor_de_tiempo_completo | | estadoCivil = Separado_o_divorciado: Trabajor_de_tiempo_completo | | estadoCivil = Separado_de_hecho: Trabajor_de_tiempo_completo | | estadoCivil = Concubino: Trabajor_de_tiempo_completo | | estadoCivil = Viudo: Trabajor_de_tiempo_completo | Edad = 67.0: Desocupado | Edad = 41.0: Trabajor_de_tiempo_parcial | Edad = 70.0: Trabajor_de_tiempo_parcial | Edad = 47.0 | | partiActivDepo = Si: Trabajor_de_tiempo_parcial | | partiActivDepo = No: Desocupado | | partiActivDepo = Vacío: Trabajor_de_tiempo_parcial | Edad = 43.0: Trabajor_de_tiempo_parcial | Edad = 61.0: Trabajor_de_tiempo_completo | Edad = 50.0: Trabajor_de_tiempo_parcial | Edad = 46.0 | | partiActivDepo = Si: Trabajor_de_tiempo_parcial | | partiActivDepo = No: Trabajor_de_tiempo_completo | | partiActivDepo = Vacío: Trabajor_de_tiempo_parcial | Edad = 52.0: Trabajor_de_tiempo_parcial | Edad = 77.0: Trabajor_de_tiempo_completo | Edad = 66.0: Trabajor_de_tiempo_parcial | Edad = 74.0: Desocupado | Edad = 72.0: Trabajor_de_tiempo_parcial | Edad = 65.0: Trabajor_de_tiempo_parcial | Edad = 71.0: Trabajor_de_tiempo_parcial partiProgEdu = Si_-_educación_formal_-_EGB | nivelInstruc = Vacío: Desocupado | nivelInstruc = Primario_completo: Trabajor_de_tiempo_parcial | nivelInstruc = Primario_incompleto: Desocupado | nivelInstruc = Secundario_incompleto: Trabajor_de_tiempo_parcial | nivelInstruc = Ninguno | | partiActivDepo = Si: Trabajor_de_tiempo_parcial 38 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes | | | | | | | partiActivDepo = No: Trabajor_de_tiempo_completo | partiActivDepo = Vacío: Trabajor_de_tiempo_parcial nivelInstruc = Universitario_incompleto: Trabajor_de_tiempo_parcial nivelInstruc = Secundario_completo: Trabajor_de_tiempo_completo nivelInstruc = terciario_incompleto: Trabajor_de_tiempo_parcial nivelInstruc = Universitario_completo: Trabajor_de_tiempo_completo Número de niveles: Tamaño del árbol: 210 250 4. Weka con tabla de Robo y Hurto: Tabla de robo y hurto (Participa en algún programa laboral) Correctly Classified Instances 93.7574 % Incorrectly Classified Instances 6.2426 % === Matriz de confusión === a b c <-- classified as 729 2 4 | a = No 30 42 0 | b = Si 16 1 25 | c = Vacio Figura 5. Matriz de confusión y clasificación de instancias El resultado parece bastante aceptable. La confianza que nos ofrece es del 93,7%, que es muy buena. El árbol de decisión desarrollado es el siguiente: nivelInstruc = Primario_incompleto: No nivelInstruc = Secundario_incompleto | sitLegal = Procesado: No | sitLegal = Condenado | | ulSitLaboral = Desocupado: No | | ulSitLaboral = Trabajor_de_tiempo_parcial | | | estadoCivil = Concubino: No | | | estadoCivil = Separado_de_hecho: Si | | | estadoCivil = Soltero: Si | | | estadoCivil = Casado: Si | | | estadoCivil = Viudo: Si | | | estadoCivil = Separado_o_divorciado: Si | | | estadoCivil = Vacio: Si | | ulSitLaboral = Trabajor_de_tiempo_completo: Si | | ulSitLaboral = 0.0: No | sitLegal = Otra_situacion: Si nivelInstruc = Primario_completo | partiActivDepo = No | | partiProgPreLib = Vacio: No | | partiProgPreLib = No_está_incorporado | | | tuvoReducPena = Vacio: Vacio 39 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes | | | tuvoReducPena = No_tuvo_reduccion_de_pena | | | | sitLegal = Procesado: No | | | | sitLegal = Condenado | | | | | tieneMedSegu = No | | | | | | califConducta = No_definido: Vacio | | | | | | califConducta = Muy_buena | | | | | | | Edad <= 33: Vacio | | | | | | califConducta = Buena | | | | | | | Edad <= 33: No | | | | | | | Edad > 33: Si | | | | | tieneMedSegu = Si: No | | | | sitLegal = Otra_situacion: No | | | tuvoReducPena = Si_-_Hasta_6_meses: No | | partiProgPreLib = Si_está_incorporado: Vacio | partiActivDepo = Si | | tuvoReducPena = Vacio | | | fueLesionado = No_fue_lesionado | | | | Nacionalidad = Bolivia: No | | | | Nacionalidad = Argentina | | | | | califConducta = Muy_buena: Si | | | | | califConducta = Ejemplar: Si | | | | | califConducta = Pesima: Vacio | | | fueLesionado = Si-_por_otros_motivos: No | | | fueLesionado = Si-_por_hechos_prod._por_otros_internos: No | | | fueLesionado = Vacio: No | | | fueLesionado = Si-_por_hechos_prod._por_agentes_del_mismo: No | | tuvoReducPena = No_tuvo_reduccion_de_pena: No | | tuvoReducPena = Si_-_Hasta_6_meses: No nivelInstruc = Secundario_completo: No nivelInstruc = Universitario_incompleto: No nivelInstruc = Ninguno: No nivelInstruc = terciario_completo: No nivelInstruc = Universitario_completo: No | Edad <= 31: Si | Edad > 31: No nivelInstruc = terciario_incompleto: No Número de niveles: Tamaño del árbol: 40 71 88 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes D. Conclusiones sobre los procesos de inducción de las diferentes tablas. Como se puede ver, nos encontramos ante árboles muy grandes y con muchas posibilidades y formas de interpretación, lo que se debe a una variedad amplia de variables en cada campo, es por ello que no vamos a representar los árboles físicamente. El campo clase de cada árbol ha sido elegido valorando el nivel de confianza y la coherencia de los resultados, encontrando campos de mayor interés en el estudio pero que no nos daban resultados óptimos, por lo tanto hemos elegido el campo Participa en algún programa laboral, menos para uno de ellos, que encontramos una buena aproximación con el campo clave que trata la Situación laboral antes del ingreso. A continuación vamos a desarrollar los puntos más llamativos y reveladores de los cuatro árboles de decisión que hemos ejecutado para cada uno de los cuatro delitos que estamos estudiando: o Estupefacientes (Clase: Participa en algún programa laboral) Vemos que el perfil de personas presas que participan en algún programa laboral es de jóvenes menores de 31 años, mayoritariamente de nacionalidad argentina y con los estudios primarios superados. Nos encontramos que al ser el delito más cometido, existe una gran cantidad de patrones diferentes que no nos permiten concluir exactamente, así que nos hemos limitado a buscar los patrones más repetidos dentro del árbol en cuestión. Otra cuestión a destacar es que sólo los presos condenados pueden optar a este tipo de programas, dejando al resto fuera de estas opciones de reinserción y ocupación como son los programas laborales dentro de los centros penitenciarios. Este dato, junto con que en Argentina se estima que más del 60% de los presos están a la espera de ser condenados, nos hace ver que este tipo de programas son minoritarios. o Violaciones (Clase: Situación laboral antes del ingreso) Es este caso hemos estudiado la situación laboral antes de entrar ya que nos encontramos con un delito que no puede ser estudiado desde un praxis sociopolítico, aunque si creemos que lleva marcado una dosis de situaciones familiares y educacionales muy concretas. Es por ello que ahora trabajaremos sobre su inserción laboral como sujeto social. Vemos que son personas totalmente integradas en la sociedad, con trabajos a tiempo parcial o completo donde, dependiendo de la edad, podemos observar mayores o menores posibilidades laborales. Encontramos que en presos menores de 22 años tenemos muchos casos de desocupados, aunque pensamos que se es más una cuestión social derivada de la alta tasa de desocupados que sufre el país. En los casos de los presos más adultos vemos que hay un alto índice de trabajadores a tiempo completo, sobre todo en edades superiores a 40 años. Esto 41 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes nos lleva a valorar esa dualidad de vidas que les lleva a, por un lado, delinquir contra la dignidad de género y, por otro, a llevar una vida psicosocial totalmente integrada. Dentro de los centros penitenciaros vemos los presos por violación más jóvenes y, por lo tanto, con menos formación académica, optan por programas relacionados con el deporte. En su gran mayoría se encontraban en situación de desocupados antes de su ingreso en prisión. o Homicidios (Clase: Participa en algún programa laboral) Como ya vimos en el proceso de clustering, tanto los presos por delitos de homicidio como los de robo son bastante similares variando un poco la edad de ingreso en prisión. Esto quedará comprobado en el árbol que pasaremos a interpretar a continuación. Lo primero que tenemos que explicar es que al encontrarnos con un alto índice de presos sin condena, la edad de presos que participan en programas laborales asciende a 31 años, añadiendo su poca formación académica. Es destacable que suelen ser presos casados, viudos o separados, lo que se debe a lo comentado antes sobre la edad de los susodichos. Otra característica es que suelen ser presos con buena conducta que no han participado en altercados del orden ni han sido lesionados. o Robo y hurto (Clase: Participa en algún programa laboral) Heredando gran parte de los patrones de conducta de los presos por homicidio, el perfil de las personas presas que comenten robos es destacable por ciertas cuestiones. Anteriormente, en el clustering, decíamos que la edad media de caer preso por robo y/o hurto era de 27 años y que era una distribución muy homogénea. Así que lo primero destacable que observamos, según las reglas del árbol, es que pocos presos por robo participan en programas laborales dentro de los centros penitenciarios, ya que una de las características es estar condenado y la gran mayoría no lo están. Por eso, el perfil del preso por robo y el perfil del preso por robo que participa en programas laborales cambia sustancialmente aunque sea un subconjunto del mismo. El segundo, es un varón mayor de 31 años, que tenía trabajo a tiempo parcial o completo antes de ingresar a la prisión y con una conducta buena. o Conclusión general Básicamente, lo que vemos en todos los procesos de inducción enfocados a la participación en programas laborales, nos demuestra que es una minoría de la población carcelaria la que participa en ellos, lo que se debe al poco índice de presos que está en situación de condenados. 42 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 1.3. REQUISITO 3 – CARACTERIZACIÓN DE LOS PRESOS MAYORES DE 65 AÑOS • Objetivo del requisito: Buscar la caracterización de los presos que hay en Argentina mayores de 65 años, basándonos en el censo del año 2004 del que disponemos. • Origen de la información del requisito: o MAECENSO · Descripción del comportamiento de los prisioneros. o MAETABCODIGOS · Tabla donde se muestra una lista detallando los códigos generales. • Restricciones del requisito: Justamente el estudio que estamos haciendo está acotado al año 2004, para el cual estamos sesgando la búsqueda en la población presa cuya edad sea mayor o igual a 65 años. Además, vamos a tener una restricción más: que el prisionero haya cometido alguno de los cinco delitos más cometidos por este grupo de personas. • Atributos involucrados en el requisito: Atributo idReco Edad Sexo Nacionalidad estadoCivil nivelInstruc ulSitLaboral fecDete idDeli1 partiProgLabo partiProgEdu partiActivDepo tenFugasEvas tenSuicidio fueLesionado partiProgPreLib semiDetencion tuvoReducPena Base de datos maeCenso maeCenso maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos Tabla 16. Atributos involucrados en el requisito con sus respectivas Bases de Datos • Información de soporte para el requisito: No existe información adicional además de las mencionadas como origen de la información. 43 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 1.3.1. COMPRENSIÓN DE LOS DATOS • Datos iniciales: El objetivo de estudio se basa en buscar la caracterización de los prisioneros mayores de 65 años partiendo de la base de datos de la que disponemos, obtenida a través de un censo elaborado en el año 2004. La tabla principal para nuestro estudio será la tabla maeCenso, la cual nos muestra, a grandes rasgos, una descripción detallada de las características de los presos. Podemos apuntar que todos los valores que contiene esta tabla son valores numéricos. Esto nos ayudará en el proceso de clustering, pero para el proceso de inducción tendremos que hacer una conversión a sus correspondientes valores alfanuméricos apoyándonos en la tabla maeTabCodigos, donde para cada valor numérico de cada atributo, viene su correspondiente valor alfanumérico. • Descripción de los datos Vamos a pasar, por tanto, a describir los atributos con los que vamos a trabajar. Todos ellos provienen de la tabla maeCenso, por tanto, son valores numéricos. Son los siguientes: Atributo idReco Edad Sexo Nacionalidad estadoCivil nivelInstruc ulSitLaboral fecDete idDeli1 partiProgLabo partiProgEdu partiActivDepo tenFugasEvas tenSuicidio fueLesionado partiProgPreLib semiDetencion tuvoReducPena Descripción Número de registro Edad del prisionero Sexo del Prisionero Nacionalidad del Prisionero Estado civil del prisionero Nivel de instrucción Ultima ocupación del prisionero Fecha Ingreso al penal Id delito 1 Participa en el programa Laboral Participa en el programa educativo Participa de Actividades Deportivas Tentativa de fugas Intentos de Suicidio Fue Lesionado Participa de programa Prelibertad Tiene Semidetención Tuvo reducción de pena Tabla 17. Atributos y descripción 44 Posibles valores 427..59080 65..86 1..2 1..16 1..6 1..9 1..5 1963..2004 1, 8, 9, 15, 24 1..2 1..6 1..2 2..3 2 2..4 1..2 1..3 1..4 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Dado este grupo de atributos y sus valores numéricos, gracias a la tabla maeTabCodigos podremos hacer un cambio por sus correspondientes valores alfanuméricos. Estos son los posibles valores alfanuméricos de cada atributo: o Sexo: masculino, femenino o Nacionalidad: argentina, boliviana, brasileña, chilena, paraguaya, uruguaya, peruana, colombiana, ecuatoriana, española, italiana, inglesa, china, sudafricana, nigeriana, otras o estadoCivil: soltero, casado, viudo, separado o divorciado, separado de hecho, concubino o nivelInstruc: ninguno, primario incompleto, primario completo, secundario incompleto, secundario completo, terciario incompleto, terciario completo, universitario incompleto, universitario completo o ulSitLaboral: trabajador de tiempo completo, trabajador de tiempo parcial, desocupado o idDeli1: homicidios dolosos, violaciones, otros delitos contra la honestidad, robo y/o tentativa de robo, estupefacientes o partiProgLabo: sí, no o partiProgEdu: sí – educación formal – EGB, sí – educación formal – POLIMODAL, sí – educación formal – TERCIARIA, sí – educación formal – UNIVERSITARIA, sí – educación no formal, no participa o partiActivDepo: sí, no o tenFugasEvas: sí – tentativa de fuga, no o tenSuicidio: no o fueLesionado: sí – por agentes, sí – por otros motivos, no fue lesionado o partiProgPreLib: sí está incorporado, no está incorporado o semiDetencion: no tiene semidetención, sí – prisión diurna, sí – prisión nocturna o tuvoReducPena: sí – hasta 6 meses, sí – hasta 1 año, sí – más de un año, no tuvo reducción de pena • Reporte de calidad de datos: En total, la tabla maeCenso dispone de 53029 registros, de los cuales, 398 cumplen la condición de ser mayores de 65 años. De estos 398, haremos una separación, escogiendo los registros cuyo delito este entre los cinco más cometidos por este grupo de personas, por tanto, tras la separación nos quedamos con 311 registros. A partir de aquí, nos hemos encontrado con los siguientes problemas: o Existen registros en los que algún campo está vacío o Existen también campos que están a 0. Estos campos no deberían de constar ya que en la tabla maeTabCodigos no aparecen en ningún momento. o Hay campos que tienen un valor no vacío y distinto de 0 que tampoco constan en la tabla maeTabCodigos. o El atributo tenSuicidio tiene todos sus campos al mismo valor. o Los datos de los que disponemos cubren todas las restricciones del requisito, es decir, la edad de la población presa seleccionada es mayor o igual a 65 años 45 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 1.3.2. PREPARACIÓN DE LOS DATOS • Preparación de Dataset Dado que el número de observaciones del que disponemos (311) para el requisito nos parece una cifra aceptable, llegamos a la conclusión de que no es necesario definir un Dataset. Sin embargo, sí se hace necesario el preparar los datos para las herramientas que vamos a utilizar durante el proceso de clustering y el proceso de inducción • Preparación de datos para herramientas En el apartado donde comentamos la calidad de los datos de los que disponemos para este estudio, se definían los distintos problemas que nos habíamos encontrado durante el proceso de amasado de datos. Estas son las soluciones propuestas: o En el caso de que los registros contengan algún campo que está vacío, consideramos sustituirlo por la media que existe en ese atributo en concreto. o En los campos que están a 0, hemos decidido nuevamente sustituirlos por el valor medio del atributo donde aparezca 0. o Los campos que tienen un valor no vacío y distinto de 0 que tampoco constan en la tabla maeTabCodigos, también los hemos sustituido por la media del atributo. o El atributo tenSuicidio tiene todos sus campos al mismo valor. No podemos seguir trabajando con él ya que puede ocasionarnos problemas tanto en el proceso de clustering como en el proceso de inducción. Por esta razón, debemos eliminar dicho atributo. En primera instancia, y con las modificaciones anteriores realizadas, podemos pasar al proceso de clustering. Una vez realizado el clustering, pasaremos a modificar nuevamente las tablas. En este caso, para el proceso de inducción. Lo que haremos será sustituir los valores numéricos por sus correspondientes valores alfanuméricos, para así poder tener una mayor legibilidad sobre los resultados que se obtengan. Añadiremos también la columna que la herramienta NNclust nos devolverá en el clustering para así poder realizar un estudio más amplio. 46 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 1.3.3. MODELADO A. Resultados obtenidos aplicando clustering La herramienta que vamos a utilizar en el proceso de clustering será NNclust. Esta herramienta está basada en el algoritmo SOM. Tenemos una matriz de NxN neuronas que decidimos arrancar la ejecución con N=4. Tras la ejecución, obtenemos el siguiente resultado: Cluster Sizes Cluster 1 Cluster 2 Cluster 3 Cluster 4 1 11 67 232 Tabla 18. Clasificación de Clusters Ha clasificado los datos en cuatro cluster, el primero contiene 1 dato, el segundo 11, el tercero 67 y el cuarto 232 datos. Podemos observar la distribución en el siguiente gráfico: Figura 6. Clasificación de Clusters 47 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes La tabla de las medias de los valores es la siguiente: Edad Sexo Nacionalidad estadoCivil nivelInstruc ulSitLaboral fecDete idDeli1 partiProgLabo partiProgEdu partiActivDepo tenFugasEvas fueLesionado partiProgPreLib semiDentencion tuvoReducPena Cluster Means Cluster 1 Cluster 2 Cluster 3 Cluster 4 67,0 66,6 70,4 69,4 2,0 2,0 1,0 1,0 5,0 2,0 1,2 1,7 1,0 2,5 1,7 2,1 1,0 2,8 2,9 3,0 2,0 2,6 2,6 2,1 2002,0 2002,7 2000,6 1999,9 24,0 23,2 9,8 8,8 2,0 1,9 2,0 1,8 6,0 4,7 6,0 4,8 2,0 1,7 2,0 1,1 3,0 3,0 3,0 3,0 3,0 4,0 3,9 4,0 2,0 1,9 2,0 1,9 1,0 1,0 1,0 1,1 4,0 4,0 4,0 3,9 Tabla 19. Medias de los Clusters B. Conclusiones en base a los resultados obtenidos en el proceso de clustering Pasemos a analizar los resultados obtenidos en este proceso. En primer lugar, analizaremos el número de cluster y su distribución. Hemos obtenido cuatro cluster, los cuales están clasificados de la siguiente manera: o el primero, con sólo una observación. Evidentemente es el cluster menos significativo o el segundo contiene 11 observaciones. No podemos tener claro si con 11 observaciones sobre 311 podremos sacar algo en claro o el tercero posee 67 observaciones, el cuál es bastante numeroso y podremos extraer alguna información relevante o el cuarto tiene 232 observaciones. Este es el cluster mayoritario Analizaremos la tabla de medias obtenida: o en primer lugar, vamos a tener que abstraernos, ya que los resultados que nos ofrece esta tabla son numéricos, y tendremos que interpretar esos datos numéricos a través de la tabla maeTabCodigos o describamos al prisionero que se ha clasificado en el cluster 1. Es una mujer de 67 años, de nacionalidad paraguaya. Es soltera y no tiene estudios. Su última situación laboral fue trabajadora a tiempo parcial. Fue detenida en el año 2002 por un delito de estupefacientes. No participa ni en el programa laboral, ni educativo, ni deportivo. No se ha intentado fugar. Ha sido lesionada ‘por otros motivos’. No está incorporada en el programa prelibertad, ni tiene semidetención ni ha tenido reducción de su pena 48 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes o describamos ahora el cluster número dos. Este grupo es completamente femenino, la edad gira en torno a los 66-67 años. Aunque la media de la nacionalidad sea 2 (boliviana), se ha comprobado que de las 11 mujeres de este grupo, 9 de ellas son argentinas, 1 uruguaya y 1 peruana. Esto ocurre por el problema de trabajar con datos numéricos en lugar de alfanuméricos. Existen parámetros donde no coinciden los datos de las observaciones, por tanto sólo nos fijaremos en los atributos que puedan caracterizar realmente al grupo. La mayoría de las mujeres estaban desocupadas antes de entrar en prisión, habiendo cuatro de ellas trabajando a tiempo parcial. Exceptuando a una de ellas, el delito fue debido a estupefacientes. No participan en el programa laboral. Tan solo tres de ellas participan en actividades deportivas. Ninguna de ellas se ha intentado fugar, ni se han intentado suicidar, ni han sido lesionadas. Sólo una de ellas participa en el programa prelibertad, las demás, ni participan en el programa prelibertad, ni tienen prisión discontinua, ni han gozado de reducción de pena o analicemos el cluster 3. Éste es un grupo formado por hombres, la mayoría de ellos de nacionalidad argentina y de una edad que ronda los 70 años. Algo más de un 70% de ellos estaba desocupado. No participan ni en el programa laboral, ni educativo, ni deportivo. No participan tampoco en el programa prelibertad, no tienen semidetención y no obtuvieron ninguna reducción de pena. Cinco de ellos han sido lesionados, pero ninguno se intentó fugar ni intentó suicidarse o por último observemos las características del cluster 4. Este cluster tiene el mayor número de observaciones de todos los cluster, es el mayoritario. Por tanto, tenderá también a generalizar características y así ser menos específico. Este grupo también corresponde a un perfil masculino de una edad de unos 6667 años. La nacionalidad de la mayoría de ellos es la argentina, pero hay que señalar que en este grupo se alberga a la mayor parte de los extranjeros mayores de 65 años, existiendo hasta 10 nacionalidades distintas. No hay un delito en común, sino que el número de cada uno de ellos es parecido. En esta ocasión, nos encontramos que este grupo sí que participa en actividades deportivas, y tiene una participación más notable en el programa educativo. Aparecen en este cluster cinco presos que han intentado fugarse. Tenemos también a quince de ellos que participan en el programa prelibertad, trece que tienen semidetención y nueve que obtuvieron reducción de pena. 49 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes C. Proceso de Inducción Para esta fase, vamos a utilizar la herramienta Ctree y Weka. Del resultado del proceso de clustering obtuvimos una tabla con nuestras observaciones clasificadas por el número de cluster asignado. Este número será un nuevo atributo de nuestro estudio, lo tendremos que pasar a alfanumérico. Vamos a realizar distintas ejecuciones eligiendo como clase distintos atributos. Los atributos elegidos para realizar una caracterización del grupo elegido serán Grupo, idDeli1 y tenFugasEvas. Clase: Grupo Para este estudio incluiremos todos los atributos de los que disponemos. En primer lugar, vamos a reflejar los resultados propuestos por Ctree. Durante su ejecución nos fuimos encontrando con distintos problemas, que resolvimos sobre la marcha: Grupo ‘Uno’ sólo tiene una aparición, la borramos Nacionalidad ‘Española’ sólo tiene una aparición, la borramos Nacionalidad ‘Brasileña’ sólo tiene una aparición, la borramos partiProgEdu ‘Si – Terciaria’ sólo tiene una aparición, la borramos semiDetención ‘Si – Nocturna’ sólo tiene una aparición, la borramos Los resultados obtenidos con Ctree son los siguientes: Class Distribution: Class 1 2 3 Label Cuatro Dos Tres Proportion 74.66% 3.04% 22.30% Tabla 20. Distribución Obtenida Figura 7. Distribución de Clusters 50 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Reglas más relevantes: Regla 1 (confianza 69.2%): Regla 2 (confianza 98.1%): Regla 3 (confianza 97.1%): Regla 5 (confianza 100%): Regla 8 (confianza 79.3%): Regla 9 (confianza 94.1%): Regla 10 (confianza 94.1%): IF Sexo = femenino THEN Grupo = dos IF partiActivDepo = si THEN Grupo = cuatro IF partiProgEdu = si – egb THEN grupo = cuatro IF partiProgEdu = si – universitaria THEN grupo = cuatro IF partiActivDepo = no THEN Grupo = tres IF partiProgLabo = si THEN Grupo = cuatro IF partiProgPreLib = si THEN Grupo = cuatro Matriz de confusión Figura 8. Predicción durante el entrenamiento Figura 9. Predicción final de los datos Veamos ahora los resultados obtenidos con la herramienta Weka: Reglas: partiActivDepo = No | Sexo = Femenino: Dos | Sexo = Masculino | | partiProgEdu = Si - EGB: Cuatro | | partiProgEdu = No: Tres | | partiProgEdu = Si - Eduación no formal: Tres | | partiProgEdu = Si - Polimodal: Cuatro | | partiProgEdu = Si - Universitaria: Cuatro 51 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes | | partiProgEdu = Si - Terciaria: Tres partiActivDepo = Si | Sexo = Femenino | | idDeli1 = Estupefacientes: Dos | | idDeli1 = Otros delitos contra la honestidad: Tres | | idDeli1 = Violaciones: Dos | | idDeli1 = Robo y/o tentativa de robo: Cuatro | | idDeli1 = Homicidios dolosos: Cuatro | Sexo = Masculino: Cuatro Árbol de clasificación: partiActivDepo No Si Masculino Femenino Sexo Sexo Masculino Femenino DOS CUATRO partiProgEdu Parte 1 idDeli1 Parte 2 Figura 10. Árbol de clasificación Debido a que el árbol tiene un tamaño considerable, 13 hojas y un tamaño de 18, no se ha podido representar entero. Las partes se representan a continuación: o Parte 1: SI partiProgEdu = Si - EGB ENTONCES Cuatro SI partiProgEdu = No ENTONCES Tres SI partiProgEdu = Si - Eduación no formal ENTONCES Tres SI partiProgEdu = Si - Polimodal ENTONCES Cuatro SI partiProgEdu = Si - Universitaria ENTONCES Cuatro SI partiProgEdu = Si - Terciaria ENTONCES Tres 52 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes o Parte 2: SI idDeli1 = Estupefacientes ENTONCES Dos SI idDeli1 = Otros delitos contra la honestidad ENTONCES Tres SI idDeli1 = Violaciones ENTONCES Dos SI idDeli1 = Robo y/o tentativa de robo ENTONCES Cuatro SI idDeli1 = Homicidios dolosos ENTONCES Cuatro Confianza y Matriz de confusión: Correctly Classified Instances Incorrectly Classified Instances 303 8 97.4277 % 2.5723 % === Matriz de confusión === a 11 0 0 1 b c d 0 0 0 67 0 0 7 225 0 0 0 0 | | | | <-- classified as a = DOS b = TRES c = CUATRO d = UNO Figura 11. Matriz de confusión y clasificación de instancias a. Clase: idDeli1 Para esta clase, vamos utilizar los atributos: edad, sexo, nacionalidad, estadoCivil, nivelInstruc, ulSitLaboral. Empezaremos trabajando con Ctree. Los resultados obtenidos son los siguientes: Class Distribution: Class 1 2 3 4 5 Label Estupefacientes Homicidios dolosos Delitos contra la honestidad Robo y/o tentativa de robo Violaciones Proportion 12.16% 30.74% 14.53% 22.30% 20.27% Tabla 21. Distribución Obtenida 53 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Figura 12. Distribución de Clusters Reglas más relevantes: Regla 1 (confianza 75.0%): Regla 2 (confianza 66.7%): Regla 3 (confianza 57.1%): Regla 4 (confianza 100.0%): Regla 5 (confianza 74.4%): Regla 6 (confianza 69.2%): IF nivelInstruc = universitario completo THEN idDeli1 = homicidios dolosos IF nivelInstruc = terciario completo THEN idDeli1 = otros delitos contra la hon. IF edad >= 70 AND estadoCivil = casado THEN idDeli1 = homicidios dolosos IF nacionalidad = boliviana THEN idDeli1 = estupefacientes IF edad >= 68 AND estadoCivil = soltero AND ultSitLaboral = Desocupado THEN idDeli1 = robo y/o tentativa de robo IF sexo = femenino THEN idDeli1 = estupefacientes Los resultados de Weka no han sido del todo satisfactorios. La confianza no llega a un mínimo esperado (se queda en un 51%). Aún así, decidimos incluir las reglas obtenidas, ya que podremos extraer alguna información. Reglas: estadoCivil = Soltero | nivelInstruc = Ninguno: Homicidios dolosos | nivelInstruc = Primario completo | | Edad <= 67 | | | Edad <= 66: Robo y/o tentativa de robo | | | Edad > 66: Homicidios dolosos | | Edad > 67: Robo y/o tentativa de robo | nivelInstruc = Primario incompleto 54 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes | | Sexo = Femenino: Estupefacientes | | Sexo = Masculino | | | ulSitLaboral = Desocupado | | | | Edad <= 67: Violaciones | | | | Edad > 67: Otros delitos contra la honestidad | | | ulSitLaboral = Trabajador tiempo parcial | | | | Edad <= 70 | | | | | Edad <= 66: Violaciones | | | | | Edad > 66: Robo y/o tentativa de robo | | | | Edad > 70: Violaciones | | | ulSitLaboral = Trabajador tiempo completo: Estupefacientes | nivelInstruc = Secundario incompleto: Robo y/o tentativa de robo | nivelInstruc = Secundario completo: Robo y/o tentativa de robo | nivelInstruc = Terciario completo: Otros delitos contra la honestidad | nivelInstruc = Universitario incompleto: Robo y/o tentativa de robo | nivelInstruc = Universitario completo: Homicidios dolosos | nivelInstruc = Ninguno: Violaciones estadoCivil = Casado | Edad <= 69 | | Sexo = Femenino: Estupefacientes | | Sexo = Masculino: Violaciones | Edad > 69: Homicidios dolosos estadoCivil = Divorciado | nivelInstruc = Ninguno: Estupefacientes | nivelInstruc = Primario completo | | ulSitLaboral = Desocupado: Homicidios dolosos | | ulSitLaboral = Trabajador tiempo parcial: Violaciones | | ulSitLaboral = Trabajador tiempo completo: Otros delitos contra la honestidad | nivelInstruc = Primario incompleto: Violaciones | nivelInstruc = Secundario incompleto: Violaciones | nivelInstruc = Secundario completo: Estupefacientes | nivelInstruc = Terciario completo: Estupefacientes | nivelInstruc = Universitario incompleto: Estupefacientes | nivelInstruc = Universitario completo: Estupefacientes | nivelInstruc = Ninguno0: Estupefacientes estadoCivil = Viudo: Homicidios dolosos estadoCivil = Concubino: Robo y/o tentativa de robo estadoCivil = Separado de hecho | ulSitLaboral = Desocupado: Violaciones | ulSitLaboral = Trabajador tiempo parcial: Estupefacientes | ulSitLaboral = Trabajador tiempo completo: Otros delitos contra la honestidad 55 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes b. Clase: tenFugasEvas Para esta clase, vamos utilizar los atributos: sexo, partiProgLabo, partiProgEdu, partiActivDepo, fueLesionado, partiProgPreLib, semiDetencion, tuvoReducPena. Empezaremos trabajando con Ctree. Los resultados obtenidos son los siguientes: Class Distribution: Class 1 2 Label No Si – Fuga Proportion 98.31% 1.69% Tabla 22. Distribución Obtenida Figura 13. Distribución de Clusters Árbol de clasificación: fueLesionado No Si – Por otros motivos Sí – Por agentes NO partiProgPreLib NO Sí No NO Figura 14. Árbol de clasificación 56 SÍ - FUGA Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Reglas más relevantes: Regla 1 (confianza 99%): Regla 2 (confianza 100%): Regla 3 (confianza 100%): Regla 4 (confianza 60%): IF fueLesionado = No THEN tenFugasEvas = No IF fueLesionado = Sí – Por agentes THEN tenFugasEvas = No IF fueLesionado =Sí – Por otros motivos AND partiProgPreLib = Sí THEN tenFugasEvas = No IF fueLesionado =Sí – Por otros motivos AND partiProgPreLib = No THEN tenFugasEvas = Sí – Fuga En esta ocasión, no vamos a mostrar los resultados obtenidos con Weka, ya que aunque tengan una confianza en torno al 97%, sólo tiene una regla y es adjudicar a todas las observaciones el resultado No para tenFugasEvas. D. Conclusiones sobre el proceso de inducción Pasemos a analizar los resultados obtenidos en este proceso. Analizaremos en primer lugar el estudio sobre la asignación de grupos, en segundo lugar el estudio sobre delitos y en tercer lugar el estudio sobre los intentos de fuga. En el primer estudio, hemos aplicado el proceso de inducción a la clase Grupo. Hemos utilizado las herramientas Ctree y Weka. Comentemos las reglas obtenidas: o En primer lugar, observamos una similitud relativa en las reglas obtenidas a partir de las dos herramientas. Aún así, podemos decir que las reglas obtenidas en la herramienta Weka resultan más específicas. o Para el grupo uno, no obtenemos ninguna regla ya que tuvimos que prescindir de este grupo al tener tan solo una aparición. o Para el grupo dos, Ctree incluye a todas las mujeres con una confianza de casi el 70%. Weka nos pone más condiciones: que no participe en actividades deportivas, y que si participa, haya cometido delitos relacionados con estupefacientes o violaciones. o Para decidir si una observación entra en el grupo tres, la regla que se ha obtenido en Ctree se basa en que el prisionero no participe en actividades deportivas. Con Weka nos encontramos con una regla parecida pero más específica: el prisionero además de no participar en actividades deportivas, debe ser hombre y no participar en el programa educativo o participar pero con educación no formal. Y además, añade otra regla: si el prisionero participa en actividades deportivas, es mujer y ha cometido otros delitos contra la honestidad, se clasificará en el grupo tres. o Las demás reglas obtenidas derivan en el grupo cuatro, el grupo mayoritario. Son las que mayor porcentaje de confianza tienen. En este caso también encontramos reglas más específicas en el resultado que nos brinda la herramienta Weka. 57 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Analizaremos ahora el segundo estudio, del cuál hemos intentado obtener, a partir de las características del prisionero, qué delito cometió. En este caso, los resultados ofrecidos por Weka vuelven a ser más específicos, aunque esta vez lo son demasiado, y se obtienen reglas que no entraremos a valorar. Los resultados son los siguientes: o En Ctree, obtenemos una regla que nos llama bastante la atención por su alto porcentaje de confianza. Si el preso es de nacionalidad boliviana, el delito cometido es estupefacientes. o Otra regla que nos parece interesante reseñar, es que si la edad es mayor o igual a 68 años, el prisionero es soltero y su última situación laboral fue desocupado, el delito cometido fue robo y/o tentativa de robo. o Las mujeres cometen delitos de estupefacientes, según las dos herramientas. o En cuanto al delito referido a homicidios dolosos, las herramientas incluyen a los prisioneros que tienen un nivel de instrucción universitario completo, a los viudos, a los casados cuya edad es mayor de 70 años y a los divorciados desocupados. o Para otros delitos contra la honestidad, las dos herramientas coinciden en que el nivel de instrucción es terciario completo. Weka añade a esto que debe ser soltero. Weka también incluye en este grupo a los divorciados con un nivel de educación primaria y trabajadores a tiempo completo, y a los separados de hecho y trabajadores a tiempo completo. o Las herramientas nos dicen que las violaciones, pueden ser cometidas por solteros sin educación, por casados menores de 69 años, por divorciados con educación primaria o secundaria, o por separados de hecho desocupados. Analicemos por último el estudio sobre los intentos de fuga o evasión. Como ya comentamos con anterioridad, sólo disponemos de resultados obtenidos con la herramienta Ctree, ya que Weka no nos brindaba ninguna regla relevante. Comentemos por tanto las reglas disponibles: o Las reglas obtenidas se basan en los atributos que nos ofrecen información sobre si el prisionero fue lesionado y si participa en el programa prelibertad. Pensamos que son atributos muy importantes para el estudio en cuestión. o Si el prisionero no fue lesionado, la herramienta nos dice que no ha habido tentativa de fuga. Lo mismo ocurre si el prisionero fue lesionado por agentes. o Si el prisionero fue lesionado por otros motivos y participa en el programa de prelibertad, tampoco ha habido tentativa de fuga. En cambio, si se da la misma característica de lesión y no participa en el programa prelibertad, sí ha habido intento de fuga. 58 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 1.4. REQUISITO 4 – DELITO ESTUPEFACIENTES • Objetivo del requisito: en esta ocasión intentaremos determinar si un prisionero ha cometido el delito de estupefacientes a través del estudio de sus características. • Origen de la información del requisito: o MAECENSO · Descripción del comportamiento de los prisioneros. o MAETABCODIGOS · Tabla donde se muestra una lista detallando los códigos generales. • Restricciones del requisito: Justamente el estudio que estamos haciendo está acotado al año 2004, para el cual estamos sesgando la búsqueda en la población presa. • Atributos involucrados en el requisito: Atributo idReco Edad Sexo Nacionalidad estadoCivil nivelInstruc ulSitLaboral idDeli1 Base de datos maeCenso maeCenso maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos maeCenso, maeTabCodigos Tabla 23. Atributos involucrados en el requisito con sus respectivas Bases de Datos • Información de soporte para el requisito: No existe información adicional además de las mencionadas como origen de la información. 1.4.1. COMPRENSIÓN DE LOS DATOS • Datos iniciales: El objetivo de estudio se basa en buscar la caracterización de los prisioneros que nos haga ver si han cometido o no un delito de estupefacientes partiendo de la base de datos de la que disponemos, obtenida a través de un censo elaborado en el año 2004. La tabla principal para nuestro estudio será la tabla maeCenso, la cual nos muestra, a grandes rasgos, una descripción detallada de las características de los presos. Podemos apuntar que todos los valores que contiene esta tabla, son valores numéricos. Tendremos que hacer una conversión a sus correspondientes valores alfanuméricos apoyándonos en la tabla maeTabCodigos, donde para cada valor numérico de cada atributo, viene su correspondiente valor alfanumérico. 59 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes • Descripción de los datos Vamos a pasar, por tanto, a describir los atributos con los que vamos a trabajar: Atributo idReco Edad Sexo Nacionalidad estadoCivil nivelInstruc ulSitLaboral fecDete idDeli1 Descripción Número de registro Edad del prisionero Sexo del Prisionero Nacionalidad del Prisionero Estado civil del prisionero Nivel de instrucción Ultima ocupación del prisionero Fecha Ingreso al penal Id delito 1 Tabla 24. Atributos y descripción Dado este grupo de atributos, gracias a la tabla maeTabCodigos podremos hacer un cambio por sus correspondientes valores alfanuméricos. Estos son los posibles valores alfanuméricos de cada atributo: o Sexo: masculino, femenino o Nacionalidad: argentina, boliviana, brasileña, chilena, paraguaya, uruguaya, peruana, colombiana, ecuatoriana, española, italiana, inglesa, china, sudafricana, nigeriana, otras o estadoCivil: soltero, casado, viudo, separado o divorciado, separado de hecho, concubino o nivelInstruc: ninguno, primario incompleto, primario completo, secundario incompleto, secundario completo, terciario incompleto, terciario completo, universitario incompleto, universitario completo o ulSitLaboral: trabajador de tiempo completo, trabajador de tiempo parcial, desocupado o idDeli1: homicidios dolosos, violaciones, otros delitos contra la honestidad, robo y/o tentativa de robo, estupefacientes • Reporte de calidad de datos: En total, la tabla maeCenso dispone de 53029 registros. Hemos hecho una selección aleatoria de 1000 registros, de los cuales 306 han cometido el delito de estupefacientes y 694 no lo han cometido. A partir de aquí, nos hemos encontrado con los siguientes problemas: o Existen registros en los que algún campo está vacío o Existen también campos que están a 0. Estos campos no deberían de constar ya que en la tabla maeTabCodigos no aparecen en ningún momento. o Hay campos que tienen un valor no vacío y distinto de 0 que tampoco constan en la tabla maeTabCodigos. o El atributo tenSuicidio tiene todos sus campos al mismo valor. o Los datos de los que disponemos cubren las restricciones del requisito 60 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 1.4.2. PREPARACIÓN DE LOS DATOS • Preparación de Dataset La tabla maeCenso dispone de 53029 registros, que podrían cumplir todos y cada uno de ellos con las restricciones planteadas para el requisito. Dado que este número de observaciones es demasiado grande, nos vemos obligados a reducir el tamaño de observaciones con el que vamos a trabajar. Simplemente, hemos elegido 1000 observaciones al azar sin ningún tipo de criterio, ya que las restricciones del requisito son mínimas. Además, se hace necesario el preparar los datos para las herramientas que vamos a utilizar durante el proceso de clustering y el proceso de inducción • Preparación de datos para herramientas En el apartado donde comentamos la calidad de los datos de los que disponemos para este estudio, se definían los distintos problemas que nos habíamos encontrado durante el proceso de amasado de datos. Estas son las soluciones propuestas: o En el caso de que los registros contengan algún campo que está vacío, consideramos sustituirlo por la media que existe en ese atributo en concreto. o En los campos que están a 0, hemos decidido nuevamente sustituirlos por el valor medio del atributo donde aparezca 0. o Los campos que tienen un valor no vacío y distinto de 0 que tampoco constan en la tabla maeTabCodigos, también los hemos sustituido por la media del atributo. Por otra parte, para este requisito vamos a prescindir del proceso de clustering para centrarnos en el proceso de inducción. Por tanto, como ya comentábamos con anterioridad, todos los valores numéricos de los atributos se cambiarán por sus correspondientes valores alfanuméricos. Para finalizar la preparación, hay que modificar los valores del atributo idDeli1. En las observaciones donde aparezca ‘Estupefacientes’, sustituiremos este valor por ‘SI’. En el caso de que el delito sea otro, sustituiremos ese valor por ‘NO’. 61 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 1.4.3. MODELADO A. Proceso de Inducción Para esta fase, vamos a utilizar la herramienta Ctree y Weka. Vamos a realizar ejecutar las herramientas eligiendo como clase el atributo idDeli1 (recordemos que se ha modificado para adaptarlo al estudio de requisito). En primer lugar, vamos a reflejar los resultados propuestos por Ctree. Durante su ejecución nos fuimos encontrando con distintos problemas, que resolvimos sobre la marcha: o Nacionalidad Brasileña aparece menos de dos veces, tenemos que eliminarla o Nacionalidad Italiana aparece menos de dos veces, tenemos que eliminarla o Aparece ‘0’ en ultSitLaboral, borramos el registro Los resultados obtenidos con Ctree son los siguientes: Class Distribution: Class 1 2 Label No Sí Proportion 69.17% 30.83% Tabla 25. Distribución Obtenida Figura 16. Distribución de Clusters Reglas que caracterizan ‘Estupefacientes’: Regla 1 (confianza 100%): IF Nacionalidad = colombiana THEN idDeli1 = si Regla 4 (confianza 93.7%): IF Nacionalidad = boliviana THEN idDeli1 = si Regla 5 (confianza 100%): IF estadoCivil = separado de hecho THEN idDeli1 = si 62 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Regla 6 (confianza 60%): IF estadoCivil = viudo THEN idDeli1 = si Regla 15 (confianza 100%): IF edad >=31 AND Nacionalidad = argentina AND Sexo = femenino THEN idDeli1 = si Regla 15 (confianza 68.4%): IF nivelInstruc = secundario completo AND ultSitLaboral = desocupado THEN idDeli1 = si Regla 42 (confianza 78,6%): IF edad >= 34 AND nivelInstruc = primario incompleto AND ultSitLaboral = trabajador de tiempo comp. THEN idDeli1 = si Matriz de confusión Figura 17. Predicción durante el entrenamiento Veamos ahora los resultados obtenidos con la herramienta Weka: Reglas: Sexo = Femenino: SI (40.0/1.0) Sexo = Masculino | Nacionalidad = Boliviana: SI (35.0/4.0) | Nacionalidad = Argentina: NO (846.0/203.0) | Nacionalidad = China: NO (2.0) | Nacionalidad = Otras | | estadoCivil = Soltero | | | ulSitLaboral = Desocupado: NO (2.0) | | | ulSitLaboral = Trabajador_de_tiempo_completo: SI (2.0) | | | ulSitLaboral = Trabajador_de_tiempo_parcial: SI (4.0/1.0) | | estadoCivil = Concubino: SI (3.0) | | estadoCivil = Casado: NO (4.0/1.0) | | estadoCivil = Separado_de_hecho: SI (0.0) | | estadoCivil = Separado_o_divorciado: SI (0.0) | | estadoCivil = Viudo: SI (0.0) | Nacionalidad = Uruguaya: NO (22.0/3.0) | Nacionalidad = Peruana: SI (17.0/5.0) | Nacionalidad = Paraguaya: SI (6.0/3.0) | Nacionalidad = Colombiana: SI (2.0) | Nacionalidad = Chilena: NO (9.0/3.0) | Nacionalidad = Española: SI (2.0/1.0) 63 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Confianza y Matriz de confusión: Correctly Classified Instances Incorrectly Classified Instances 771 225 77.4096 % 22.5904 % === Matriz de confusión === a 96 15 b <-- classified as 210 | a = DOS 675 | b = TRES Figura 18. Matriz de confusión y clasificación de instancias B. Conclusiones sobre el proceso de inducción Pasemos a analizar los resultados obtenidos en este proceso. Comentemos las reglas obtenidas: o En primer lugar, observamos una cierta similitud relativa en las reglas obtenidas a partir de las dos herramientas. o Para los resultados de Ctree, hemos incluido simplemente las reglas cuyas características cumplían que se había cometido un delito de estupefacientes. En Weka, hemos puesto todas las reglas. o En primer lugar, nos vamos a fijar de la clasificación que hacen en torno al sexo del prisionero. Weka utiliza este atributo como el más importante, como la raíz de su árbol. Nos dice que si es mujer, sí ha cometido un delito de estupefacientes (cierto en cuatro de los cinco casos posibles), sin embargo con el hombre entran otras incógnitas. Ctree no pone una regla específica para las mujeres, sino que añade que éstas tienen que ser mayores de 30 años y argentinas. o Otro atributo importante es la nacionalidad. Ctree nos dice que si el prisionero es colombiano o boliviano, ha cometido un delito de estupefacientes (el porcentaje de confianza es muy alto, 100% para el primer caso y casi 94% para el segundo). Weka también tiene estas dos reglas, y añade otras cuantas, como la peruana, paraguaya y española. o Referida a la nacionalidad, una regla con la que no estamos de acuerdo es que cuando el prisionero sea hombre y de nacionalidad argentina no ha cometido delito de estupefacientes. Esto se cumple en 846 casos, mientras que no es cierto en 203 casos. Si nos fijamos en el número de instancias incorrectamente clasificadas, 225 observaciones, nos damos cuenta que esta regla es la culpable de un número tan alto de fallos en la clasificación. o Fijándonos en el estado civil, a partir de Ctree podemos llegar a la conclusión que los separados de hecho y los viudos cometen delitos de estupefacientes. Y Weka, además de incluir a estos dos grupos, incluye a los concubinos y a los solteros cuya ultima situación laboral fue trabajador a tiempo completo o parcial o Por último, reseñar dos reglas que nos ofrece Ctree y que no se reflejan en Weka. Una de ellas es que el nivel de instrucción del prisionero sea secundario 64 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes completo y que estuviera desocupado. La otra es que sea mayor de 33 años, que su nivel de instrucción sea primario incompleto y que fuera trabajador a tiempo completo. 65 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 66 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 2. CONCLUSIONES GENERALES Una propuesta para sintetizar bien las conclusiones generales sería la de tratar por un lado las conclusiones derivadas de la aplicación de la metodología de análisis y trabajo, por otro lado un breve análisis de los recursos utilizados, seguiremos con las conclusiones referentes a las fuentes de información y por último hablaremos de los resultados obtenidos utilizando minería de datos en tablas referentes a estadísticas sobre la delincuencia y su tratamiento. Los datos y la fuente de información La fuente utilizada ha sido la base de datos bdCensoP04, se trata de una base de datos compuesta por varias tablas compuestas por censos que capturan toda la información sobre los presos, los centros penitenciarios y las provincias censado en el año 2004. También tenemos unas tablas que codifican los datos de los censos. Gracias a esta fuente podemos tener un mapa general de la delincuencia y su tratamiento dentro del Estado. Concretamente nosotros hemos tenido que utilizar la tabla MAECENSO que aglutina toda la información de las personas presas, desde su situación antes de entrar en la cárcel como del tratamiento que reciben dentro de ellas. También nos hemos apoyado a las tablas de códigos dependientes de dicho censo. La calidad de los datos la podemos valorar en dos partes, por un lado tenemos la información concreta del ingreso del preso en la cárcel, sus datos personales y/o sociales (formación académica, laboral) y por otro lado la información referente a su conducta y tratamiento dentro de los centros penitenciarios. En la primera podemos decir que la información tiene muy buena calidad y nos encontrado con una muy buena estructura y con una alta proporción de datos completos. Sin embargo en la segunda, la información está bastante incompleta, tenemos ciertos campos como son los referidos a programas educativos/laborales dentro de los centros que tienen un alto índice de datos vacíos o no definidos en la tabla de códigos. Esto lo interpretamos a que es debido a varios motivos; al propio descontrol existente dentro de los centros penitenciarios, al factor humano y aleatoria en el tratamiento de presos donde uno puede estar un día en el programa y al día siguiente dado de baja en dicho programa debido a un altercado del orden a un cambio de centro, etc. Esto nos indica el nivel de funcionamiento de la burocracia y la propia estructura carcelaria. Entorno al software Sobre el software utilizado en la parte de minería de datos podemos matizar que hemos trabajado con programas bajo licencia GNU de libre distribución. Como todo software que trabaja entorno a la minería de datos tenemos que, dependiendo de la morfología de la información con la que se trabaja se obtienen unos u otros resultados, algunos más correctos que otros, así que nuestro trabajo se ha basado en preparar esos datos para adaptarlos a los requerimientos de cada software y luego ir probando con distintos resultados hasta encontrar soluciones que nos parecían más correctas. A destacar podemos nombrar que para los procesos de clustering nos hemos basado mucho más con la macro de Excel, NNclust y para la parte de redes neuronales, métodos de inducción el software más utilizado ha sido Weka 67 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Resultados obtenidos, una mirada desde afuera hacia dentro. A grandes rasgos nos encontramos con unos resultados bastantes clarificadores de la realidad carcelaria en Argentina, a grosso modo podemos resumir que la población presa está sustentada de hombres y mujeres con bajo nivel adquisitivo, de poca formación y pocas salidas laborales con esta fórmula este sujeto tipo está abocado a la delincuencia y como en cualquier sistema capitalista donde el fomento de los valores consumistas, de competitividad y egoísmo el resultado final de los que no pueden entrar dentro de unos cánones sociales muy concretos terminan quebrando las leyes de convivencia y por lo tanto cometiendo un delito. También observamos que existe un alto grado de reincidencia por lo tanto entendemos que la cárcel como sistema de resocialización no cumple su función pero si la de castigo por los hechos consumados en cuestión, ya que el tratamiento dentro de dichos centros va más orientado a la culpa y castigo que el de reeducar una conducta incívica. Después de hacer un esbozo general de la situación carcelaria vemos como los delitos mayormente cometidos son los relacionados con la delincuencia de supervivencia y de marginación, delitos como los relacionados con estupefacientes, robos y homicidios. También se apunta un gran índice de violaciones con un perfil masculino de una formación académica baja o media con recursos económicos escasos que hemos considerado que es fruto de las sociedades de consumo. El caso de la mujer dentro de las cárceles sigue un patrón parecido al europeo de una mujer de edad media con escasos recursos económicos que se lanza a delinquir por falta de formación cívica y necesidad de bienestar, madre de una media de dos hijos y en muchos casos con su pareja encarcelada. Consideramos que aunque el sistema penitenciario argentino mejora respecto al de los países del cono sur aunque se apunta un problema de superpoblación presa después del conflicto político social que se vivió en el año 2001 y que lejos de estabilizarse cada año va aumentando sin que el Estado dé una respuesta preventiva a dicho problema. Total 2002 44.969 2003 2004 2005 51.998 54.472 55.423 Tabla 26. Población alojada en establecimientos penitenciarios Contrastando datos reveladores en cuanto a la violencia entre los siguientes años a la crisis vivida en 2001/2002, observamos que existe una tendencia a la baja, pero esta caída es tan leve, que la sensación de inseguridad sigue siendo la misma entre la población. Parece ser evidente que la seguridad pública no puede estar basada exclusivamente en la prevención y represión de los delincuentes, ni en el control de los sectores marginados, sino en programas y proyectos que combatan esas causas que generan pobreza, desempleo y marginalidad. Respecto a la población presa mayor de 65 años, podemos decir que, un 35% de ellos cumplieron esa edad en la cárcel. Es de destacar que, aunque el porcentaje de permisos carcelarios (como puede ser el estado de Semi-Detención, el programa prelibertad, o reducción de pena) es muy bajo en toda la población presa, nos hemos encontrado que este grupo de presos, considerada de la tercera edad, es el que goza de una tasa más alta de permisos. Aún así, apenas se llega al 12% de los presos que gozan de este beneficio. 68 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Dentro de este grupo, y como ocurre en toda la población carcelaria, el sexo mayoritario es el masculino, pero analizando los casos de las mujeres que hemos encontrado se puede llegar a la conclusión de que el delito cometido mayoritariamente ha sido un delito relacionado con estupefacientes. Y hablando sobre su comportamiento dentro de la prisión, comprobamos que son bastante reticentes a adherirse a los programas ofrecidos, como los programas educativos, deportivos o laborales. Respecto a los hombres, el delito no está tan claro como en las mujeres, ya que hay un número parecido de homicidios, robos, violaciones y tráfico de estupefacientes. Hay que reseñar que los presos extranjeros que nos hemos encontrado, cumplen que la mayoría de ellos ha cometido un delito de estupefacientes, siendo estos la mayor parte de ellos bolivianos. Hemos obtenido una regla, que aunque se refiere al estudio de esta población, podría aplicarse a toda la comunidad carcelaria, y no es otra que si el preso está desocupado, el delito más cometido fue el robo o intento de robo. Esta regla, que no deja de ser obvia, nos muestra aún así la realidad de desempleo, y por tanto, de delincuencia que se vive en el país. Y para terminar, en los hombres mayores de 65 años sí que notamos una cierta aceptación a los programas deportivos, educativos y laborales que las mujeres rechazaban, pero aún así, es el grupo de presos que se adhiere en menor medida a estos programas. Hay que dejar clara una cosa, una persona no se convierte en delincuente por gusto, o por una transformación espontánea de la sociedad, sino que el nuevo delincuente nace a raíz de la desesperación creada por la pobreza, el desempleo y la incertidumbre, causadas por unas acciones políticas, económicas y sociales que rondan la ilegalidad. El ciudadano de a pie, en definitiva, delinque por necesidad. Referente al delito de estupefacientes, en el que se ha llevado a cabo un estudio más conciso, hemos llegado a unas conclusiones que exponemos a continuación. En primer lugar, y como anteriormente se ha mencionado, encontramos que las mujeres, en su mayoría, cometen este delito. Como también se ha comentado antes, los extranjeros, y más concretamente colombianos y bolivianos, tienen un alto porcentaje (cercano al 100%) al cometer este delito. Y por último, reseñar que concubinos, separados, viudos y solteros trabajadores también tienen más posibilidades de cometer este delito. 69 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 70 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 3. FUTURAS LÍNEAS DE INVESTIGACIÓN El trabajo realizado ha podido demostrar que es factible aplicar la minería de datos a un campo tan comprometido como el la delincuencia y la vida en las cárceles en Argentina. A partir de la base de datos con la que hemos podido trabajar, podemos afirmar que la cantidad de estudios a realizar puede ser muy amplia y sobre todo de gran utilidad para posibles investigaciones. La cantidad de información es suficiente como para poder generar patrones de conducta por ejemplo en distintas provincias, de distintos delitos, de distinta nacionalidad, etc. Esta base de datos es muy rica y muy bien estructurada, de ahí la facilidad para extraer información relevante. Como investigaciones alternativas, podemos proponer algunas de las muchas que se podrían llevar a cabo: - estudio sobre regiones: del cuál extraeríamos los delitos más cometidos en cada una de las provincias de la Argentina estudio sobre delitos: podríamos extraer patrones de conducta que lleven a cometer un determinado delito (sería similar a nuestro Requisito 2) estudio sobre los prisioneros en la cárcel: donde podríamos caracterizar los comportamientos de conducta de los prisioneros estudio social sobre los prisioneros: analizando las distintas características sociales que pueden haberle llevado a delinquir estudio sobre prevención de fugas y evasiones: intentando encontrar algún patrón de conducta referente al prisionero que intenta fugarse estudio sobre prevención de violencia en las cárceles: buscando las características de aquellos presos que sufren alguna agresión Partiendo de todos estos estudios, se puede plantear realizar una plataforma automatizada y estandarizada, donde a partir de ciertos datos de entrada, podamos acceder a una determinada información automáticamente. Esto sería de mucha utilidad si se quiere realizar un estudio a escala global, donde los intereses no sean solo educativos sino que sean beneficiosos tanto para la seguridad nacional como para la seguridad dentro de las cárceles. 71 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 72 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 4. BIBLIOGRAFÍA • Angshuan S.. 1998. Tesis Doctoral ‘Application of Ridge Regresión for Improved Estimation of Parameters in Compartmental Models’. Departamento de Estadística de la Universidad de Washintong. • European Commission. 2007. Cross Industry Standard Process for Data mining. http://www.CRISP-DM.org/. Vigente al 23 de Mayo de 2007. • Fundación Biblioteca Virtual Miguel de Cervantes. Aplicación de la metodología FITM al cálculo de árboles de decisión borrosos. http://descargas.cervantesvirtual.com/servlet/SirveObras/01305008611682844756802/ 014462_13.pdf. Vigente al 23 de Mayo de 2007. • García Martínez, R.; Servente, M.; Pasquín, D.; 2003. Sistemas Inteligentes. Nueva Librería, Buenos Aires, Argentina. • García Morate, D. 2006. Manual de Weka. http://metaemotion.com/diego.garcia.morate/download/Weka.pdf. Vigente al 23 de Mayo de 2007 • Molina Féliz, L. C. 2002. Data mining: torturando a los datos hasta que confiesen. http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html. Vigente al 23 de Mayo de 2007. • Ochoa, M. A. 2004. Herramientas Inteligentes para la Explotación de Información. Instituto Tecnológico de Buenos Aires. • Página web del Ministerio de Justicia, Seguridad y Derechos Humanos. http://www.jus.gov.ar/ • Página web de la Dirección http://www.ssi.gov.ar/dir-int.html • Página web de la Secretaría de Justicia y Asuntos http://www.jus.gov.ar/ministerio/justicia/justicia_SJ_y_AP.htm • Software: Nacional de Policía Criminal. Penitenciarios. o NNclust: http://www.geocities.com/adotsaha/NN/NNclust.zip. Vigente al 23 de Mayo de 2007 o Ctree: http://www.geocities.com/adotsaha/Ctree/Ctree.zip. Vigente al 23 de Mayo de 2007 o Weka: http://www.cs.waikato.ac.nz/ml/Weka/ . Vigente al 23 de Mayo de 2007. Versión: 3.5 • Lukor información. 2004. ‘La delincuencia crece en Argentina, donde se registran 143 delitos a la hora’. Vigente al 9 de Julio del 2007. http://www.lukor.com/notmun/america/0412/19215900.htm 73 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 74 • Parodi, Guillermo. 2004. ‘Inseguridad, pobreza y desocupación en Argentina’. Vigente al 9 de Julio del 2007. http://www.lanacion.com.ar/636323 • Carabajal, Gustavo. 2001. ‘Los ladrones se ajustaron a la crisis’. Vigente al 9 de Julio del 2007. http://www.lanacion.com.ar/360183 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 5. ANEXO 5.1. DATA MINING – HISTORIA Y APLICACIONES HISTORIA Aunque desde un punto de vista académico el término data mining es una etapa dentro de un proceso mayor llamado extracción de conocimiento en bases de datos (Knowledge Discovery in Databases o KDD) en el entorno comercial, así como en este trabajo, ambos términos se usan de manera indistinta. Lo que en verdad hace el data mining es reunir las ventajas de varias áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos. Una definición tradicional es la siguiente: "Un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos" (Fayyad y otros, 1996). Desde nuestro punto de vista, lo definimos como "la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión" (Molina y otros, 2001). La idea de data mining no es nueva. Ya desde los años sesenta los estadísticos manejaban términos como data fishing, data mining o data archaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido. A principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de data mining y KDD. A finales de los años ochenta sólo existían un par de empresas dedicadas a esta tecnología; en 2002 existen más de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones. Las listas de discusión sobre este tema las forman investigadores de más de ochenta países. Esta tecnología ha sido un buen punto de encuentro entre personas pertenecientes al ámbito académico y al de los negocios. El data mining es una tecnología compuesta por etapas que integra varias áreas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadísticas, de visualización de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementándose con otra herramienta. 75 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes APLICACIONES Cada año, en los diferentes congresos, simposios y talleres que se realizan en el mundo se reúnen investigadores con aplicaciones muy diversas. Sobre todo en los Estados Unidos, el data mining se ha ido incorporando a la vida de empresas, gobiernos, universidades, hospitales y diversas organizaciones que están interesadas en explorar sus bases de datos. Podemos decir que "en data mining cada caso es un caso". Sin embargo, en términos generales, el proceso se compone de cuatro etapas principales: 1. Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining. 2. Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining. 3. Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial. 4. Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones. A continuación se describen varios ejemplos donde se ha visto involucrado el Data mining: - En el gobierno El FBI analizará las bases de datos comerciales para detectar terroristas. A principios del mes de julio de 2002, el director del Federal Bureau of Investigation (FBI), John Aschcroft, anunció que el Departamento de Justicia comenzará a introducirse en la vasta cantidad de datos comerciales referentes a los hábitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una acción. Algunos expertos aseguran que, con esta información, el FBI unirá todas las bases de datos probablemente mediante el número de la Seguridad Social y permitirá saber si una persona fuma, qué talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que está suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos políticos u organizaciones no gubernamentales, sus enfermedades crónicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tomó clases de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversión inicial ronda los setenta millones de dólares estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad para compartir información e implementar nuevo software analítico y de visualización. 76 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes - En la empresa Detección de fraudes en las tarjetas de crédito. En 2001, las instituciones financieras a escala mundial perdieron más de 2.000 millones de dólares estadounidenses en fraudes con tarjetas de crédito y débito. El Falcon Fraud Manager es un sistema inteligente que examina transacciones, propietarios de tarjetas y datos financieros para detectar y mitigar fraudes. En un principio estaba pensado, en instituciones financieras de Norteamérica, para detectar fraudes en tarjetas de crédito. Sin embargo, actualmente se le han incorporado funcionalidades de análisis en las tarjetas comerciales, de combustibles y de débito. El sistema Falcon ha permitido ahorrar más de seiscientos millones de dólares estadounidenses cada año y protege aproximadamente más de cuatrocientos cincuenta millones de pagos con tarjeta en todo el mundo – aproximadamente el sesenta y cinco por ciento de todas las transacciones con tarjeta de crédito. Prediciendo el tamaño de las audiencias televisivas. La British Broadcasting Corporation (BBC) del Reino Unido emplea un sistema para predecir el tamaño de las audiencias televisivas para un programa propuesto, así como el tiempo óptimo de exhibición (Brachman y otros, 1996). El sistema utiliza redes neuronales y árboles de decisión aplicados a datos históricos de la cadena para determinar los criterios que participan según el programa que hay que presentar. La versión final se desempeña tan bien como un experto humano con la ventaja de que se adapta más fácilmente a los cambios porque es constantemente reentrenada con datos actuales. - En investigaciones espaciales Proyecto SKYCAT. Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II) coleccionó tres terabytes de imágenes que contenían aproximadamente dos millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a una resolución de 16 bits por píxel con 23.040 x 23.040 píxeles por imagen. El objetivo era formar un catálogo de todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación (clustering) y árboles de decisión para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta confiabilidad (Fayyad y otros, 1996). Los resultados han ayudado a los astrónomos a descubrir dieciséis nuevos quásares con corrimiento hacia el rojo que los incluye entre los objetos más lejanos del universo y, por consiguiente, más antiguos. Estos quásares son difíciles de encontrar y permiten saber más acerca de los orígenes del universo. 77 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes - En los clubes deportivos El AC de Milán utiliza un sistema inteligente para prevenir lesiones. Esta temporada el club comenzará a usar redes neuronales para prevenir lesiones y optimizar el acondicionamiento de cada atleta. Esto ayudará a seleccionar el fichaje de un posible jugador o a alertar al médico del equipo de una posible lesión. El sistema, creado por Computer Associates International, es alimentado por datos de cada jugador, relacionados con su rendimiento, alimentación y respuesta a estímulos externos, que se obtienen y analizan cada quince días. El jugador lleva a cabo determinadas actividades que son monitoreadas por veinticuatro sensores conectados al cuerpo y que transmiten señales de radio que posteriormente son almacenadas en una base de datos. Actualmente el sistema dispone de 5.000 casos registrados que permiten predecir alguna posible lesión. Con ello, el club intenta ahorrar dinero evitando comprar jugadores que presenten una alta probabilidad de lesión, lo que haría incluso renegociar su contrato. Por otra parte, el sistema pretende encontrar las diferencias entre las lesiones de atletas de ambos sexos, así como saber si una determinada lesión se relaciona con el estilo de juego de un país concreto donde se practica el fútbol. 78 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 5.2. ALGORITMO SOM En 1982, Teuvo Kohonen, presentó un modelo de red neuronal, basado en el funcionamiento de neuronas biológicas. La red neuronal diseñada posee la capacidad de formar mapas de características. El objetivo de Kohonen era demostrar que un estímulo externo por sí solo, suponiendo una estructura propia y una descripción funcional del comportamiento de la red, era suficiente para forzar la formación de los mapas. El modelo tiene dos variantes, LVQ (Learning Vector Quantization) y TPM (Topología Preserving Map) o SOM (Self Organizing Map). Ambas se basan en el principio de formación de mapas topológicos para establecer características comunes entre las informaciones (vectores) de entrada a la red, aunque difieren en las dimensiones de éstos, siendo de una sola dimensión en el caso de LVQ y bidimensional e incluso tridimensional en la red SOM o TPM. El modelo presenta dos capas con N neuronas de entrada y M de salida. Cada una de las N neuronas de entrada se conecta a las M de salida a través de conexiones hacia delante (Feedforward). Entre las neuronas de la capa de salida, existen conexiones laterales de inhibición (peso negativo) implícitas, a pesar de no estar conectadas, cada una de estas neuronas va a tener cierta influencia sobre sus vecinas. El valor que se asigne a los pesos de las conexiones feedforward entre las capas de entrada y salida (wij) durante el proceso de aprendizaje de la red va a depender precisamente de esta interacción lateral. Figura 19. Estructura de una red de Kohonen 1 La influencia que cada neurona ejerce sobre las demás es función de la distancia entre ellas, siendo muy pequeñas cuando están muy alejadas. Es frecuente que dicha influencia tenga la forma de un sombrero mejicano. Se han descubierto conexiones de este tipo entre las neuronas del sistema nervioso central de los animales. [Redes Competitivas, 2000]. Figura 20. Función de interacción lateral entre neuronas 79 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 5.3. HERRAMIENTA NNCLUST Esta herramienta nos va a permitir aplicar el algoritmo SOM. La aplicación está implementada en EXCEL. Dispone de las siguientes hojas: - ReadMe Input Data Weights Output Junk Plot A continuación se pasará a explicar cada hoja de la aplicación: Hoja ReadMe Presenta una descripción de las instrucciones para el correcto uso de la herramienta. Los pasos que nos pone que debemos seguir son los siguientes: Paso 1: Ingresar los datos A. Se deben ingresar los datos en la hoja “Data”, a partir de la celda 13 B. Las observaciones deben ubicarse en filas y las variables en columnas. C. Por cada columna se debe elegir el tipo apropiado: (“Use” u “Omit”) a. Si se quiere que el proceso de clasificación excluya a alguna columna se debe seleccionar la opción = “OMIT”. b. Si se quiere incluir la columna en la clasificación, se debe elegir = “USE”. Se pueden ingresar un máximo de 50 variables de clasificación. El aplicativo automáticamente tratará a todas las variables como continuas. Debe asegurarse que el número de variables ingresadas en la hoja “Input” sea la misma cantidad de columnas ingresadas en la hoja “Data” de tipo = “USE”. Debe asegurarse que el número de observaciones ingresados en la hoja “Input” sea igual o menor a las filas ingresadas en la hoja “Data”. D. No puede haber filas o columnas en blanco. E. Todas las variables a usar en la clasificación deben estar en formato numérico. Las que no cumplan con este requisito serán consideradas valores perdidos. La aplicación podría reemplazarlas por algún dato de la misma columna. Paso 2: Ingreso de los parámetros en la hoja ‘Input’ A. Nótese que SOM es una parrilla conformada por n-neuronas, organizada en n filas y n columnas. Es necesario especificar el valor de n, n debe se mayor o igual a 2 y menor o igual a 10. B. Un ciclo consiste en una presentación de todas las observaciones al mapa. Por tal motivo es necesario especificar la cantidad de ciclos, es decir la cantidad de veces que se presentarán las observaciones al mapa neuronal. 80 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes C. En cada ciclo todas las observaciones serán presentadas. El orden de presentación puede ser al azar o en el orden en el que fueron ingresados los datos en la hoja “Data”. Se debe seleccionar si se quiere respetar este orden o dejarlo al azar. D. Se debe tener presente que el valor final del parámetro de aprendizaje debe ser menor que el valor inicial y ambos valores deben ser mayor o igual a 0 y menor o igual a 1. E. Considerar que el valor final de Sigma es menor que el valor inicial y que ambos valores deben ser mayor o igual al 0% y menor o igual al 100%. F. A medida que el entrenamiento de la red progresa, ambos parámetros de aprendizaje y de Sigma decrecen desde el valor inicial hacia el valor final, por lo que se debe seleccionar el rango decreciente, ya sea en forma lineal o exponencial. Paso 3: Efecto del botón ‘Build Clusters’ (‘Construir Clusters’) A. Mientras el mapa se entrena, los datos de las variables se actualizan de manera que cada valor de las variables se transforman en –1 y 1. Esto es los que se llama normalización de los datos. Este proceso puede ser muy largo, en especial en bases de datos con muchas observaciones y variables. Si se entrena la red con los mismos datos en dos veces sucesivas, se puede cancelar la normalización en la segunda vuelta. La aplicación preguntará si se quiere cancelar esta normalización o no. Cancelar esta tarea ahorra mucho tiempo. La aplicación siempre se ocupará de chequear el número de filas y columnas en los datos para determinar si ésta ha cambiado desde la última vez que se la ejecutó. No chequea los datos individuales de la hoja “Data”. De manera que si se está seguro de que los datos han cambiado desde la última vez que se corrió el algoritmo, se debe nuevamente normalizar los datos. B. Si se está entrenando la red con las mismas variables y con las mismas dimensiones de mapa, respecto de la última vez que se corrió, la aplicación preguntará si se quiere comenzar con los pesos obtenidos en el anterior procesamiento. El comenzar con los pesos obtenidos anteriormente aporta incrementos en el aprendizaje. Ésta opción permite resguardar los aprendizajes que se fueron acumulando. Si en cambio los datos se han cambiado, se debe volver a configurar las variables junto con su orden de procesamiento para poder reasignar valores a los pesos. Paso 4: Resultados de la Clasificación A. Los resultados pueden observarse en la hoja “Output”. Los datos son de sólo lectura, ya que la planilla está protegida para evitar modificaciones. B. La aplicación ofrece la posibilidad de guardar los resultados en una planilla aparte para que el usuario tenga la posibilidad de poder editar sus resultados. C. En esta planilla se pueden guardan los datos procesaros por el algoritmo, el cluster asignado a cada observación, y los pesos. Además un gráfico será creado para permitir una comparación visual de los resultados de las variables que atraviesan los diferentes clusters. D. En la hoja “Weights”, un gráfico dará una representación visual de las observaciones que hay en cada porción del mapa. 81 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Hoja Input En esta hoja se ingresar los parámetros de configuración del funcionamiento del algoritmo. Estos datos deben ser consistentes con los ingresados en la hoja “Data”. Se debe ingresar: - número de observaciones (entre 5 y 5000) - número de variables (entre 3 y 50) - dimensiones del mapa, valor que será elevado al cuadrado para obtener el total de neuronas del mapa (entre 2 y 100) - número de ciclos de entrenamiento (entre 1 y 100) - parámetros de aprendizaje (mayor a 0 y menor que 1) o valor inicial o valor final o forma del decrecimiento = exponencial o lineal - valor de Sigma para la vecindad Gaussiana, como porcentaje del ancho del mapa o valor inicial o valor final o forma del decrecimiento = exponencial o lineal Figura 21. Hoja Input 82 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Hoja Data Los datos deben ingresarse a partir de la celda C13. Los nombres de las variables deben ingresarse en la fila 11. El tipo de variable debe especificarse en la fila 10 Para que la variable sea incluida por el algoritmo se debe indicar la opción “USE”, para que sea ignorada “OMIT”. No debe haber filas o columnas con datos en blanco. Las variables que se usan para clasificar deben estar en formato numérico. Los datos que no están en formato numérico serán considerados como datos perdidos y serán reemplazados por un valor de la misma columna. Figura 22. Hoja Data 83 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Hoja Weights Visualiza el mapa bidimensional obtenido tras la ejecución producida por el botón ‘Build Cluster’. Las observaciones se ubicarán en cada cluster a medida que la aplicación se ejecuta. Figura 23. Hoja Weights 84 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Hoja Output En esta hoja presenta los resultados del algoritmo. Informa: • El número de variables usadas para clasificar. • El número de observaciones usadas para clasificar. • Cantidad de grupos (clusters). • Tabla “Cluster Assignment” (Asignación de clusters): muestra por cada observación, (representada por una ID) el número de cluster asignado • Tabla “Clusters Size” (Tamaño de los clusters): muestra la cantidad de observaciones encontradas en cada uno de los clusters o grupos. • Tabla “Cluster Position on the grid” (Posición de cada cluster dentro de la grilla). Tabla de doble entrada donde se indica el número de fila y de columna que le corresponde a cada cluster. • Tabla “Cluster Means” (Promedio de los clusters): Tabla de doble entrada donde se indica los valores promedio para la totalidad de los datos, y para cada uno de los clusters. • Tabla “Cluster Variantes” (Varianza de los clusters): Tabla de doble entrada donde se indica la varianza para la totalidad de los datos y para cada uno de los clusters. Figura 24. Hoja Output 85 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Hay una nota, que indica que aquellas celdas que estén de color azul en la tabla Cluster Means y Clusters Variances, advierte la pérdida de valores para esa variable dentro del cluster. Todos los valores perdidos fueron reemplazados por valores medios o varianzas del cluster. Hoja Junk y Hoja Plot En esta hoja la aplicación guarda datos de soporte para generar los resultados. 86 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 5.4. ALGORITMO C4.5 El C4.5 forma parte de la familia de los TDIDT (Top Down Induction Trees), junto con antecesor el ID3. Pertenece a los métodos inductivos del Aprendizaje Automático que aprenden a partir de ejemplos preclasificados. Se utilizan en Minería de datos para modelar las clasificaciones en los datos mediante árboles de decisión. Tanto el ID3 como el C4.5 fueron propuestos por Quinlan, el primero en la década de los ochenta y el segundo en 1993. El C4.5 es una extensión del ID3, que sólo trabaja con valores discretos en los atributos. El C4.5, en cambio, permite trabajar con valores continuos, separando los posibles resultados en dos ramas: una para aquellos Ai<=N y otra para Ai>N. Se genera un árbol de decisión a partir de los datos mediante particiones realizadas recursivamente, aplicando la estrategia de profundidad-primero (depth-first). El algoritmo considera todas las pruebas posibles que pueden dividir el conjunto de datos y selecciona la prueba que resulta en la mayor ganancia de información. Para cada atributo discreto, se considera una prueba con n resultados, siendo n el número de valores posibles que puede tomar el atributo. Para cada atributo continuo, se realiza una prueba binaria sobre cada uno de los valores que toma el atributo en los datos. Estos algoritmos han tenido gran impacto en la Minería de Datos. Forman parte del grupo de sistemas de aprendizaje supervisado. Han tenido muy buena performance en aplicaciones de dominio médico, artificiales y el análisis de juegos de ajedrez. Posee un nivel alto de precisión en la clasificación, pero no hace uso del conocimiento del dominio. 87 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 5.5. HERRAMIENTA CTREE Esta herramienta nos va a permitir aplicar el algoritmo C4.5. La aplicación está implementada en Excel. Dispone de las siguientes hojas: - ReadMe UserInput Data Tree NodeView Result Rules A continuación se pasará a explicar cada hoja de la aplicación: Hoja ReadMe Presenta una descripción de las instrucciones para el correcto uso de la herramienta. Los pasos que nos pone que debemos seguir son los siguientes: Paso 1: Ingresar los datos A. Se deben ingresar los datos en la hoja Data, empezando por la celda L24. Se pueden ingresar un total de filas entre 10 y 10.000. B. Las observaciones deben ubicarse en filas y las variables en columnas C. Debe elegirse en cada columna el Tipo apropiado (Omit, Class, Cont, Cat) • Si se quiere excluir la columna se debe seleccionar: Omit • Para que la columna funcione como categoría de predicción se debe seleccionar: Cat • Para que la columna funcione como predicción continua, se debe seleccionar: Cont • Para que la columna funcione como variable de clase, se debe seleccionar: Class D. E. F. G. 88 Se puede tener un máximo de 50 variables. Debe haber sólo una clase, veinte como máximo de tipo Cat, incluida la de tipo Class. No deben haber filas o columnas en blanco. La variable de tipo Class, no puede contener valores nulos. Cualquier dato de tipo no numérico en una columna de tipo Cont, será considerado como un valor perdido; y la aplicación lo reemplazará por la media de la columna. Cualquier celda en blanco o con error de Excel, en una columna de tipo Cat, será considerado como un valor perdido; la aplicación lo reemplazará por el valor de mayor frecuencia de ocurrencia en la misma columna. La aplicación no diferencia en los nombres de las columnas entre, por ejemplo; good, Good, GOOD, etc. Todos serán tratados como misma categoría. Debe haber como mínimo dos observaciones por cada columna tipo Cat. Si hay sólo una se debe, o bien eliminar la observación o renombrar la categoría hacia otra de la misma columna. Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Paso 2: Configurar el modelo A. Se deben completar los datos de la hoja UserInput. B. Se debe tener cuidado que los valores estén dentro de los rangos aceptados por la aplicación. C. Presionar el botón Build Tree para comenzar el modelo. Paso 3: Resultados A. Al finalizar se puede observar el árbol de clasificación en la hoja “Tree”. En esta hoja se ingresan lo valores de predicción y en la celda H7 se observa la clase de predicción generada por el árbol. B. Se puede seleccionar una celda en cualquier de los nodos y chiquear el botón View Node para ver los detalles de información de este nodo en la hoja NodeView. C. En la celda F7 de la hoja NodeView, se puede ingresar cualquier número de nodo para ver la clase de distribución y alguna otra información acerca del nodo. Paso 4: Generación de reglas A. Las reglas se generan luego de que el árbol se desarrolló. La aplicación sólo genera reglas, no está preparada para que estas reglas clasifiquen nuevos datos. obtener ninguna información a partir de ellas. La tabla que contiene el resumen de las reglas informa acerca de la calidad individual de cada una. La calidad se mide según tres métricas: Soporte, Confidencialidad y Representatividad. . Algunos puntos más a tener en cuenta: - - - Ajuste de diferentes categorías para el predictor Mientras se va creando el árbol, los nodos hijos son creados por la partición de los nodos padres. El predictor a usar en esta partición es una decisión que requiere cierto criterio. El criterio tiene cierta propensión a elegir predictores con más categorías. Esta tendencia puede ser ajustada seleccionando esta opción. Criterio de tamaño del nodo mínimo Esto no conviene seleccionarse. En el caso de hacerlo se debe ingresar un tamaño de nodo mínimo que sea válido, expresado como porcentaje del total de las observaciones. Un valor de tamaño mínimo del nodo debería ser exactamente mayor al 0% y exactamente menor a 100%. El aumentar este valor, genera un árbol más pequeño. Criterio máximo de purificación 89 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Hoja UserInput Entrada para el árbol de clasificación Criterios para partición de nodos. Ajuste # categorías para un predictor de categorías Cuando el nodo se divide, el algoritmo tiende a preferir predictores con más categorías. Esto puede ser activado, indicado el estado ON en la casilla correspondiente. Criterios de ramificación A medida que el árbol se va desarrollando, termine o no de ramificarse un nodo y se declare al nodo como un nodo hoja, puede ser determinado por los siguientes criterios. Se puede no elegir ningún criterio, uno o varios. Si no se elige ningún criterio, la aplicación usa los valores por defecto. • Tamaño mínimo del nodo (Valor por defecto = 5 registros) El nodo no se ramifica más si el número de registros en el nodo es = (porcentaje a ingresar) o menor al número total de registros. • Nivel máximo de pureza (Valor por defecto = 100% de pureza) El nodo no se ramifica más si el valor de pureza es = (porcentaje a ingresar) o mayor. • Nivel máximo de profundidad (Valor por defecto = 20 es el máximo nivel de profundidad) El nodo no se ramifica más si el valor de la profundidad es = (valor a ingresar) o mayor. (El nodo raíz tiene profundidad 1. Cualquier nodo dependiente es igual a la profundidad de su nodo padre + 1). A estos criterios cabe agregar: Si para algún predictor, los valores son idénticos para todos los registros del nodo, entonces ese predictor puede ser usado para ramificar el nodo. Aunque si esto sucede para todos los predictores del nodo, este nodo no podrá de ningún modo ser ramificado. Opciones de poda del árbol. Luego que el árbol se ha desarrollado, se puede seleccionar la posibilidad de realizar una poda (Si o No). Entrenamiento / Configuración de prueba Se debe seleccionar si: Se usan todos los datos para el entrenamiento Se usa una parte de los datos En el caso que se opte por usar una parte de los datos, se debe indicar la forma de seleccionar la configuración de la validación. Se puede elegir la opción 1 o la 2. - La opción 1: Selecciona de manera aleatoria un porcentaje (valor a ingresar entre 1% y 50%) de datos como datos de prueba. - La opción 2: Usa las últimas (valor a ingresar) filas de datos como datos de validación Guardar el modelo en una hoja separada? (Ingresar Si o No) Opciones para generación de reglas. Ingresar si se desea generar reglas (Si o No) Opciones para limpieza de reglas. Mínima confidencia (Valor por defecto = 50 %) No se genera reglas con confidencia = (porcentaje a ingresar) o menor. Máximo soporte (Valor por defecto = 0 %) No se genera reglas con soporte = (porcentaje a ingresar) o menor. 90 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Figura 25. Hoja UserInput 91 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Hoja Data En esta hoja deben ingresar los datos a procesar. Los datos deben comenzar a ingresarse a partir de la celda G24. Los nombres de variables se deben ingresar en la fila 23. Los tipos de variables se especifican en la fila 22. Class: variable de clase Cat: atributo de tipo categórico Cont: atributos de tipo continuo Omit: cuando se quiere excluir la variable del modelo. Figura 26. Hoja Data 92 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Hoja Tree En esta hoja se visualiza el árbol que generó el modelo. Si se selecciona alguno de los nodos, se puede ver información de cada nodo en la hoja NodeView, presionando el botón View Node. Visualiza el resultado de la clase predictora. Visualiza una tabla con los nombres de los predictores y los valores de cada uno. Figura 27. Hoja Tree 93 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Hoja NodeView Esta hoja muestra información de cada nodo seleccionado en la hoja anterior, presionando el botón “View Node”. Muestra por cada nodo, un gráfico de tortas con los porcentajes obtenidos en la clase. Se indica el ID del nodo. El tamaño del nodo Número de registros en el nodo Porcentaje total de registros encontrados en el nodo La clase mayoritaria (la de porcentaje mayor) El porcentaje errado (la suma de las demás clases perdedoras) La distribución de clases. El número de clase, la denominación y el porcentaje obtenido en el nodo seleccionado Figura 28. Hoja NodeView Hoja Result Se visualizan los resultados de árbol que generó el modelo. Número de observaciones para el entrenamiento Número de observaciones de prueba Número de predictores. Nombre de la clase variable. Número de clases Clase mayoritaria Porcentaje no clasificado, cuando la clase mayoritaria es usada como clase predictiva. Información del árbol Número total de nodos. Número total de nodos hoja. Cantidad de niveles Porcentaje no clasificado En los datos de entrenamiento En los datos de prueba Tiempo utilizado 94 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes En el procesamiento de datos En el desarrollo del árbol En la poda del árbol En el diseño del árbol En la clasificación utilizando el árbol final En la generación de reglas. Tiempo Total Matriz de confusión Datos de entrenamiento Tabla de doble entrada con los resultados obtenidos en el entrenamiento a partir de las clases predictivas. Datos de prueba Tabla de doble entrada con los resultados obtenidos a partir de las clases predictivas en la prueba Figura 29. Hoja Result 95 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Hoja Rules En esta hoja se escriben las reglas generadas por el modelo. En el gráfico se observa la cantidad de observaciones obtenidas para cada clase con cada una de las reglas generada. (El color indica la clase, en el eje de las X están las reglas y en el eje de las Y están las observaciones. La tabla con los resultados de las reglas, indica la cantidad total de reglas obtenidas. Por cada una de ellas indica, su ID, la clase resultante, la longitud, el porcentaje de soporte, el porcentaje de confidencialidad y el porcentaje de captura. También se transcribe el texto de cada una de las reglas. Figura 30. Hoja Rules 96 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 5.6. HERRAMIENTA WEKA Introducción LA Weka (Gallirallus australis) es un ave endémica de Nueva Zelanda. Esta Gallinácea en peligro de extinción es famosa por su curiosidad y agresividad. De aspecto pardo y tamaño similar a una gallina las Wekas se alimentan fundamentalmente de insectos y frutos. Esta ave da nombre a una extensa colección de algoritmos de Máquinas de conocimiento desarrollados por la universidad de Waikato (Nueva Zelanda) implementados en Java [1, 2]; útiles para ser aplicados sobre datos mediante los interfaces que ofrece o para embeberlos dentro de cualquier aplicación. Además Weka contiene las herramientas necesarias para realizar transformaciones sobre los datos, tareas de clasificación, regresión, clustering, asociación y visualización. Weka está diseñado como una herramienta orientada a la extensibilidad por lo que añadir nuevas funcionalidades es una tarea sencilla. Sin embargo, y pese a todas las cualidades que Weka posee, tiene un gran defecto y éste es la escasa documentación orientada al usuario que tiene junto a una usabilidad bastante pobre, lo que la hace una herramienta difícil de comprender y manejar sin información adicional. Este manual tiene por objetivo explicar el funcionamiento básico de este programa (en su versión 3.4-2) y sentar unas bases para que el lector pueda ser autodidacta. La licencia de Weka es GPL, lo que significa que este programa es de libre distribución y difusión. Además, ya que Weka está programado en Java, es independiente de la arquitectura, ya que funciona en cualquier plataforma sobre la que haya una máquina virtual Java disponible. Aplicaciones Weka posee cuatro tipos de aplicaciones: Explorer, Experitmenter, KnowledgeFlow y SimpleCLI. Nosotros hemos trabajado únicamente con Explorer. 97 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Explorer El modo Explorador es el modo más usado y más descriptivo*. Éste permite realizar operaciones sobre un sólo archivo de datos. La ventana principal es la siguiente: Figura 31. Interfaz principal de modo Explorer El explorador permite tareas de: 1. 2. 3. 4. 5. 6. Preprocesado de los datos y aplicación de filtros. Clasificación. Clustering. Búsqueda de Asociaciones. Selección de atributos. Visualización de datos. Nosotros trabajaremos con el Preprocesado de los datos, Clasificación y Clustering. 98 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Preprocesado de los datos y aplicación de filtros El primer paso para comenzar a trabajar con el explorador es definir el origen de los datos. Weka soporta diferentes: Open File, Open URL, Open DB y Generate. Nosotros nos centraremos en Open File. Figura 32. Tipos de Archivos permitidos por Weka Al pulsar sobre este botón aparecerá una ventana de selección de fichero. Aunque el formato por defecto de Weka es el arff eso no significa que sea el único que admita, para ello tiene interpretadores de otros formatos. Éstos son: CSV Archivos separados por comas o tabuladores. La primera línea contiene los atributos (nosotros hemos utilizado este formato). C4.5 Archivos codificados según el formato C4.5. Unos datos codificados según este formato estarían agrupados de tal manera que en un fichero .names estarían los nombres de los atributos y en un fichero .data estarían los datos en sí. Weka cuando lee ficheros codificados según el formato C4.5 asume que ambos ficheros (el de definición de atributos y el de datos) están en el mismo directorio, por lo que sólo es necesario especificar uno de los dos. Instancias Serializadas Weka internamente almacena cada muestra de los datos como una instancia de la clase instance. Esta clase es serializable por lo que estos objetos pueden ser volcados directamente sobre un fichero y también cargados de uno. Para cargar un archivo arff simplemente debemos buscar la ruta donde se encuentra el fichero y seleccionarlo. Si dicho fichero no tiene extensión arff, al abrirlo Weka intentará interpretarlo, si no lo consigue aparecerá un mensaje de error como el de la figura 5. 99 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Pulsando en Use converter nos dará la opción de usar un interpretador de ficheros de los tipos ya expuestos. Figura 33. Resultado de la carga de un fichero 100 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Clustering Pulsando la tercera pestaña, llamada Cluster, en la parte superior de la ventana accedemos a la sección dedicada al clustering. El funcionamiento es el siguiente: se elije un método de clustering, se selecciona las opciones pertinentes y con el botón Start empieza el funcionamiento. Figura 34. Interfaz del proceso de Clustering Una opción propia de este apartado es la posibilidad de ver de una forma gráfica la asignación de las muestras en clusters. Esto se puede conseguir activando la opción Store cluster for evaluation, ejecutando el experimento y seguidamente, en la lista de resultados, pulsando el botón secundario sobre el experimento en cuestión y marcando la opción Visualize cluster assignments con esto obtendremos una ventana similar a las del modo explorador para mostrar gráficas en el que nos mostrará el clustering realizado. 101 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Clasificación Pulsando en la segunda pestaña (zona superior) del explorador entramos en el modo clasificación que a continuación se muestra. En este modo podremos clasificar por varios métodos los datos ya cargados. Figura 35. Interfaz principal para el proceso de Inducción Si queremos realizar una clasificación lo primero será elegir un clasificador y configurarlo a nuestro gusto, para ello pulsaremos sobre el botón Choose dentro del área Classifier. Una vez pulsado se desplegará un árbol que nos permitirá seleccionar el clasificador deseado. Una vez seleccionado aparecerá, en la etiqueta contigua al botón Choose, el filtro seleccionado y los argumentos con los que se ejecutará. Esta información es muy útil si queremos utilizar el interfaz de consola ya que podremos configurar nuestro filtro con la interfaz y luego obtener el resultado apto para línea de mandato. Para poder acceder a las propiedades de cada clasificado deberemos hacer doble-click sobre la etiqueta antes mencionada. Al darle aparecerá una nueva ventana con las propiedades junto a una breve explicación del mismo. Una vez elegido el clasificador y sus características el próximo paso es la configuración del modo de entrenamiento (Test Options). 102 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Weka proporciona 4 modos de prueba: Use training set Con esta opción Weka entrenará el método con todos los datos disponibles y luego lo aplicará otra vez sobre los mismos. Supplied test set Marcando esta opción tendremos la oportunidad de seleccionar, pulsando el botón Set..., un fichero de datos con el que se probará el clasificador obtenido con el método de clasificación usado y los datos iniciales. Cross-validation Pulsando el botón Cross-validation Weka realizará una validación cruzada estratificada del número de particiones dado (Folds). La validación cruzada consiste en: dado un número n se divide los datos en n partes y, por cada parte, se construye el clasificador con las n−1 partes restantes y se prueba con esa. Así por cada una de las n particiones. Una validación-cruzada es estratificada cuando cada una de las partes conserva las propiedades de la muestra original (porcentaje de elementos de cada clase). Percentage split Se define un porcentaje con el que se construirá el clasificador y con la parte restante se probará. Una vez definido el método de prueba Weka nos permite seleccionar algunas opciones más con el botón More Options. No vamos a entrar a explicar las distintas opciones ya que no tiene relevancia en nuestro estudio. Ahora para comenzar un método de clasificación sólo falta pulsar el botón Start. Una vez funcionando en la barra de estado aparecerá la información referente al estado del experimento. Cuando acabe, la Weka situada en la esquina inferior derecha dejará de bailar y eso indicará que el experimento ha concluido. En la ventana de mensajes del clasificador aparecerá la información referente al desarrollo de éste que hayamos seleccionado. 103 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Figura 36. Visualizaciones posibles tras aplicar el proceso de inducciín En la zona inferior-izquierda se encuentra la lista de resultados en la que aparecerán cada uno de los experimentos que hayamos realizado. Si pulsamos el botón secundario sobre alguno de ellos obtendremos opciones adicionales aplicables al experimento que hayamos seleccionado. Éstas permiten visualizar los resultados obtenidos en diferentes variantes, incluyendo gráficas, guardar modelos, etc. Tan solo nos fijaremos en Visualize tree: Visualize tree Esta opción mostrará un árbol de decisión, como el de la figura 16, generado por el clasificador, en el caso que lo haya hecho. 104 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Figura 37. Visualización del árbol de decisión 105 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes 5.7. ARTÍCULOS DE PRENSA INTERESANTES En este nuevo punto, vamos a resaltar algunos artículos de prensa que nos han parecido relevantes para la finalización del estudio. Empezamos con un artículo del año 2001, donde se refleja la realidad del cambio en la delincuencia en el momento de la crisis. A continuación, y para terminar, mostramos dos artículos del año 2004, año al cual pertenecen las bases de datos sobre las que hemos trabajado. Uno de ellos, realiza una visión general sobre la actualidad más amarga del país, recorriendo áreas como el desempleo, la inseguridad y la pobreza. El otro, nos da algunas cifras sobre los delitos que no habíamos conseguido a partir de nuestra base de datos. Hay que reseñar que hay muchos artículos relacionados con este tema. Unos nos han parecido de una importancia mayor a otros, y son los que hemos seleccionado para incluir en la tesis. Nos parece vital incluir los artículos en su totalidad, para así ver reflejada la realidad social de cada momento, y así apreciar que no es tanto lo que se había avanzado en seguridad desde el año 2001 al año 2004. 18-Diciembre-2001: Los ladrones se ajustaron a la crisis Con las nuevas medidas económicas, que impiden retirar de las cuentas bancarias más de 1000 pesos, los delincuentes renovaron sus estrategias para robar. María Lozada de González, de 70 años, en Dolores, y Santiago Sommese, de 71 años, en La Plata, pueden dar fe de ello. Ahora, como no se pueden sacar más de 250 pesos semanales de los cajeros automáticos, los asaltos de este tipo dejaron de ser atractivos para algunos delincuentes, que buscan nuevas alternativas. Los casos de la señora de González y de Somese, ocurridos con una semana de diferencia, confirman que los malvivientes ya comenzaron a aplicar las nuevas estrategias. Una de ellas consistió en intensificar la búsqueda de información en los barrios donde viven sus víctimas. Así, los delincuentes se mezclan con los vecinos con el objeto de establecer si algún habitante del barrio guarda en su casa alguna suma de dinero por haber vendido una casa o un automóvil, o si alguno retiró dinero del banco y lo llevó a su casa ante el temor de que el Gobierno congelara los depósitos. Esto le ocurrió a la señora de González. En la madrugada del viernes último, tres delincuentes tiraron abajo la puerta de su casa e irrumpieron en la vivienda, situada a cuatro cuadras del centro de Dolores. Allí la maniataron y la obligaron a que les entregara el dinero que guardaba. Según fuentes policiales, los ladrones se apoderaron de unos 120.000 pesos. "Evidentemente, se trató de una entrega. Alguien sabía que la señora había retirado una importante suma de dinero del banco y que la había guardado en su casa. Entonces les pasó el dato a los delincuentes", dijo a LA NACION uno de los detectives que investiga el caso, que el viernes último conmovió a los dolorenses. 106 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes El 5 de diciembre último, Santiago Sommese sintió un fuerte olor a gas en su casa de La Plata. Entonces, no le sorprendió que un gasista tocara a su puerta. Pero bastaron pocos minutos para que se diera cuenta de que no era un gasista, sino un delincuente que había provocado la pérdida de gas para que le franquearan la puerta de casa con el fin de apoderarse de los 50.000 pesos que Sommese guardaba y que utilizaba para pagar el tratamiento de su hijo, que sufre una grave discapacidad física. En ese caso, los investigadores también sospecharon de la existencia de un entregador que no necesariamente estuviera en complicidad con el asaltante. Con las nuevas medidas económicas, los delincuentes que intentan secuestrar a su víctima para llevarlo a recorrer los cajeros automáticos pueden estar destinados al fracaso, tal como ocurrió con dos asaltantes que secuestraron a un vecino del barrio porteño de Villa Pueyrredón y quisieron pedir un rescate de más de 1000 pesos. Como la familia de la víctima ya había sacado esa suma del banco, los delincuentes accedieron a cobrar un monto menor. Anteayer, 12 horas después de la primera llamada, los delincuentes fueron detenidos en San Martín por efectivos de División Delitos Complejos de la Policía Federal. Menos, pero no tanto Para la policía, la aplicación de límites a la cantidad de dinero para la extracción de los cajeros automáticos puede tener un lado positivo. Tanto en la policía bonaerense como en la Federal, esperan que disminuya la cantidad de hechos denunciados por la modalidad delictiva conocida como secuestros express. "Esperamos que el número de este tipo de secuestros baje debido a la falta de dinero en efectivo en la calle. Ahora, los delincuentes no pueden exigir a las familias de las víctimas grandes sumas de dinero por la simple razón de que no tienen de dónde sacarlas", dijo un detective de la Federal especializado en secuestros. No obstante, para otros policías consultados por LA NACION existen varios riesgos. Como que los delincuentes tengan el dato de que en una determinada vivienda se guarda una importante suma de dinero y, así, sea "negocio" secuestrar o tomar como rehén a uno de los integrantes de la familia y pedir rescate, al saber que hay dinero en casa. Los nuevos peligros También se corre el peligro de que al restringir el límite de extracción aumente la cantidad de robos. "Esto podría pasar porque los delincuentes cometerán más asaltos para obtener el dinero que, antes de las nuevas medidas, conseguían en uno o dos asaltos. También creemos que podrían aumentar los niveles de violencia", señaló un comisario inspector de la Policía Federal que solicitó mantener su nombre en reserva. Tal presunción está fundada en lo ocurrido con los asaltos a los bancos. 107 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes Para que las sucursales bancarias dejaran de ser atractivas para los delincuentes, desde el Gobierno se dispuso la reducción del dinero en efectivo que debían tener las cajas de atención al público para operar. Pero esa medida actuó como un boomerang, según lo demuestran las estadísticas sobre asaltos a entidades bancarias elaboradas por el Banco Central y el gremio que agrupa a los empleados bancarios. De acuerdo con ambos estudios, si bien durante los últimos años disminuyó la cantidad de dinero robado, se multiplicó en forma geométrica la cantidad de sucursales asaltadas. Así, se dieron casos de sucursales que fueron asaltadas dos o tres veces en el término de cuatro meses. "Por lo que a mí me tocó vivir, creo que no todos los delincuentes que andan en la calle están informados de las medidas económicas. Yo me salvé por poco de que me mataran ¿Qué hubiese pasado si cuando me llevaban a un cajero automático veían que el saldo marcaba 2000 pesos y que el límite de extracción estaba agotado? ¿Cómo le explicaba al delincuente que me apuntaba con un arma que no puedo sacar más plata y que eso no dependía de mí?", dijo una víctima que fue asaltada el sábado último por la noche y llevada por los delincuentes a una villa de emergencia de San Martín. Por Gustavo Carabajal De la Redacción de LA NACION http://www.lanacion.com.ar/360183 14-Septiembre-2004: Inseguridad, pobreza y desocupación en la Argentina Es claramente loable la acción de todos los familiares y amigos de las víctimas de los secuestros, también la de los ciudadanos en general, que exigen una mayor seguridad. Han logrado una reacción favorable del gobierno, que de paso, comenzó una limpieza imprescindible en los cuadros policiales. El aumento de la delincuencia rebalsa la capacidad de represión y prevención, con lo que se les hace el caldo gordo a los delincuentes profesionales. Mafias bien organizadas con apoyo de ciertos funcionarios corruptos -aunque hoy ya más vigilados-, encuentran facilitada su delictuosa labor. Pero es obvio que una concepción de la seguridad pública basada exclusivamente en la prevención y represión de los delincuentes e incluso en la control de los sectores marginados y no en programas de combate a sus causas, como la pobreza y el desempleo, es absolutamente insuficiente. Es necesario, de todas maneras, ahondar en la prevención y en la represión de la violencia, ya que los resultados de un ataque a las causas nunca pueden ser inmediatos. 108 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes En la Argentina no hubo ninguna catástrofe natural. El desastre argentino tiene causas muy claras y responsables reconocidos. Para salir de la espiral de violencia-pobrezadesocupación, el Estado debe proveer los medios. Su responsabilidad descansa en la teoría de continuidad del Estado. No existe ningún hecho externo que lo exima, no hubo una transformación espontánea de muchos ciudadanos en delincuentes, los nuevos delincuentes nacieron por desesperación. Es imprescindible que el Estado adopte una actitud enérgica. No es posible curar un cáncer avanzado con aspirinas, se debe recurrir a una cirugía mayor. Acá se verá la valentía y la capacidad de nuestros gobernantes. Por ahora el gobierno está tapando el volcán argentino con un dedo, mediante insuficientes medidas asistencialistas. Sabemos cuáles fueron las políticas erróneas, sabemos quienes fueron los responsables. Sabiendo cuáles fueron las políticas erróneas debemos urgentemente apartarnos de ellas. Solo un loco o un oligofrénico puede afirmar que tiene la solución de todos los problemas. Lo que sigue es sólo un intento de aporte por lo menos bien intencionado y con pretensión de coherencia. Analizaremos las políticas erróneas del pasado, algunas de las cuales siguen en vigencia. Apartarnos de las que continúan y minimizar los daños de las aplicadas es el objetivo que nos debemos proponer. Políticas erróneas. *Deuda externa. -Reconocimiento irrestricto de la legitimidad de la deuda. Este reconocimiento debe ser inmediatamente retirado e iniciar acciones legales para lograr la anulación de la deuda. Para demostrar la ilegalidad hay varias figuras jurídicas bien caracterizadas. La de la deuda odiosa aplicable a la contraída durante la dictadura militar (1976-1983), doctrina que invocan hoy los EE.UU. para conseguir la condonación de la deuda externa de Irak. La doctrina Espeche Gil que propone atacar la suba unilateral de las tasas de interés de los EE.UU. del 6 al 22% elevando los intereses de la mayor parte de la deuda que está atada a las tasas de los EE.UU., y que propone la presentación de un pedido de una opinión consultiva ante el Tribunal de la Haya. El fallo sería vinculante solo para el FMI y el BM pero como antecedente sería valiosísimo. La tan clara caracterización de inconstitucional planteada por el Dr. Salvador María Lozada, quién con todo precisión señala que los temas de la deuda son resorte del Congreso y no del Poder Ejecutivo según la Constitución Nacional. Todos estos elementos permitirían, si existiera una voluntad política de actuar, plantear la nulidad de la deuda. -Irregularidades en los canjes de la deuda. Existen varios procesos judiciales iniciados, entre los que se destaca el del diputado nacional Ing. Mario Cafiero. Aceptación de que la totalidad del riesgo recae en el deudor. Aberración jurídica que debe incluirse en el tratamiento de la ilegalidad de la deuda. -Resignación de la soberanía 109 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes admitiendo como jurisdicción los tribunales de Nueva York. Como fue dicho anteriormente este hecho es inconstitucional ya que todo tratamiento de la deuda externa corresponde al Congreso y no al Poder Ejecutivo (art. 57 de la Constitución Argentina). Pese a ello el actual gobierno sigue actuando de la misma manera y además sigue resignando la soberanía. Para peor el equipo económico de Cavallo ignoró los consejos de Alan Meltzer de declarar un default soberano acogiéndose a la protección de las municipalidades de los EE.UU., con un rotundo: "no, queremos pagar", dando lugar a la debacle de fines de 2001. La resignación de la soberanía ya está dando resultados nefastos como el que se relata en el parágrafo siguiente. -Negociación con minusvalías con los acreedores del default. Al reconocer de manera irrestricta la legalidad de la deuda Argentina es tremendamente vulnerable. Ya se están perdiendo juicios de los fondos buitres en los tribunales de Nueva York. Con un repudio de la deuda el peligro de tener que pagar el valor nominal de los bonos en default que se compraron al 10% de dicho valor desaparecería. Si no se ataca la ilegalidad de la deuda argentina será acosada legalmente con resultados previsiblemente desastrosos. * Privatizaciones de dudosa legalidad. -Se trató de un proceso de privatizaciones amañado, en el que se subvaluaban los bienes, se otorgaron beneficios superlativos que hicieron que, por ejemplo Repsol, cuando la Argentina caía, tuviese mayores beneficios aquí que en el resto del mundo. La Argentina se autoabastece de petróleo pero sin embargo Repsol comercializa nuestro propio petróleo en el propio país de donde los extrae ¡a precios internacionales! Pero eso es solo un ejemplo, tenemos muchos: Aerolíneas Argentinas, Ferrocarriles, los peajes. Si bien se están estudiando los procesos de privatización no aparecen resultados concluyentes, cuando por la prensa conocemos muchos procedimientos irregulares. * Relaciones con el FMI. -Ante un acreedor desesperado este organismo multilateral, del cual Argentina es socio, aprovechando las asimetrías en cuanto a poder, impone condiciones que se apartan claramente de las atribuciones originales del organismo, condiciones nacidas en el conocido Consenso de Washington. Dominado el FMI por el Departamento del Tesoro de los EE.UU., el cuál responde a los intereses de las corporaciones y del poder financiero, el FMI desde el default de México en 1982 impone las condiciones de Ajuste Estructural que directamente dictan las leyes y los procedimientos que un país "soberano" debe adoptar. Con las cláusulas explícitas y las secretas precautela solo el pago de la deuda, previendo incluso los desórdenes sociales que provocarán las acciones ordenadas (1) . 110 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes El FMI que nos dice qué debemos actualizar las tarifas a las privatizadas. Que debemos ser más flexibles en la negociación con los acreedores privados ¿De dónde viene tal poder? ¿Acaso en la conferencia de Breton Woods se planteó algo parecido? ¡El mismo FMI haciendo lobby a los acreedores privados! ¿De dónde salen tales atribuciones? Paso a paso podemos seguir cómo el FMI otorgaba créditos para que los especuladores pudiesen escapar, las imposiciones que ponía al país eran exactamente las contrarias para salir de la recesión a la largo del nefasto 2001 (Operación muy parecida a la que sometieron a Brasil hasta la implosión de enero de 1999). Para frenar este atentado contra la soberanía no cabe otra solución que la solicitud de una opinión consultiva al Tribunal Internacional de La Haya. * Fuga ilegal de capitales. -Diez días antes del congelamiento de las cuentas bancarias (llamado corralito) más de 300 camiones de caudales llevaron dólares al aeropuerto de Ezeiza para ser enviados al exterior. Por la legislación vigente el envío de divisas al exterior era legal. Lo que no era legal es contar con información privilegiada que permitiese la salida antes del corralito. Se hablo en la prensa escrita y electrónica de una investigación, pero hasta la fecha no se conoce ningún veredicto. * Inversiones especulativas. -La Argentina actuó como una entidad de beneficencia para los poderosos intereses financieros. Cuando en los EE.UU. la tasa era del 6% la Argentina pagaba graciosamente el 12% amparando a las inversiones con la ley de Convertibilidad y con el apoyo irrestricto a los acreedores del FMI que en una época de recesión prestaba con condiciones impuestas recesivas, solo permitir a los inversores mayoritariamente extranjeros pudiesen retirar sus capitales. Las inversiones especulativas sobre todo mediante copiosas e instantáneas transacciones electrónicas han desestabilizado varias economías. El desaparecido premio Nobel de economía James Tobin propuso un pequeño impuesto (0.1%) a las transacciones financieras, que apenas afectarían a las inversiones no especulativas ya que se les aplica una sola vez (2) . En cambio a los especuladores que hacen miles de transacciones les caería como un plomo. Recordemos que la mayor parte de las transacciones financieras son especulativas llegando a más del 80% del total. Si todos los países aplicasen el impuesto Tobin no solo bajaría la especulación sino que los fondos recaudados con las transacciones que aún persistan podrán alimentar un fondo para la ayuda de los necesitados. Francia y Bélgica ya han implantado el impuesto quedando su entrada en vigencia condicionada a la aplicación del resto de los países de la zona euro. Castigos a los culpables y recuperación de lo robado. Si sabemos quiénes fueron los responsables y si hay voluntad política, entonces confisquemos todos los bienes a los corruptos. Claro, mediante la ley, mediante juicios, pero con Tribunales probos, con tribunales valientes. ¿No es vergonzoso que cuando todos los ciudadanos ya estamos 111 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes seguros, con las declaraciones públicas, que hubo coimas en el Senado, el caso haya quedado sepultado? En cuanto a las deudas que se prueben ilegales deberemos pedir resarcimiento por los pagos efectuados ante los tribunales que correspondan. Con la riqueza recuperada y ahorrada se podrán financiar Planes Sociales, y se crear fuentes de trabajo digno. Ninguna familia debe quedar sin ingresos, no vale acá y en este momento el reamaniado argumento, "de alimentar vagos". ¿Cómo detectar a un vago? ¿Cómo saber que no es un desdichado que ha perdido toda esperanza y está sumido en una profunda depresión? Una salida efectiva y sin burocracia sería la imposición de la Renta Básica (3) . Los fondos podrán provenir de los mencionados fondos recuperados, del superávit fiscal no malgastado pagando una deuda espuria, del impuesto Tobin mencionado más arriba y de un de un incremento de los impuestos si fuera necesario. Ya Brasil tiene su Ley de Renta Básica ciudadana (4) promulgada el 8 de enero de 2004 (información que pasó desapercibida salvo para los diarios brasileros y las organizaciones que lo promueven). Todo ciudadano por el solo hecho de haber nacido tiene derecho a una Renta suficiente para vivir con dignidad. Sin usinas de delincuentes la policía se podrá concentrar en los delincuentes profesionales, y con el aparato ya montado alcanzará de sobra para aniquilarlos junto con todas las mafias policiales y políticas que queden. La seguridad volverá. Si todo lo anterior falla siempre quedará la posibilidad de que la ciudadanía peticione a la Cámara de Diputados sus buenos oficios para que lance una iniciativa para que Congreso de la Nación (5) someta a una consulta popular un proyecto de ley que autorice un juicio como el que se llevó a cabo en Nuremberg terminada la II Guerra Mundial. El juicio no deberá ser solo para probar la culpabilidad, el juicio -que deberá incluir a nacionales y extranjeros sean personas físicas o personas jurídicas-, deberá obtener la devolución de todo el dinero mal habido. La Argentina es una nación soberana. La Argentina deberá organizar su juicio localmente y necesariamente en el Tribunal Penal Internacional y en el Tribunal Internacional de La Haya (cuyos fallos, ya hemos dicho, son vinculantes para el FMI y el BM). NOTAS. (1) Entrevista a Greg Palast referida a Stiglitz. usuarios.lycos.es/quico77/bmfmienron.htm (2) Impuesto Tobin ¡Ahora! www.attacmadrid.org/d/1/010905diez.htm Tasa Tobin, especulación y pobreza. inicia.es/de/attac/ep.htm (3) La Renta Básica es un ingreso pagado por el estado, como derecho de ciudadanía, a cada miembro de pleno derecho o residente de la sociedad incluso si no quiere trabajar de forma remunerada, sin tomar en consideración si es rico o pobre o, dicho de otra forma, 112 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes independientemente de cuáles puedan ser las otras posibles fuentes de renta, y sin importar con quien conviva. www.redrentabasica.org/castellano/ (4) www.estadao.com.br/agestado/noticias/2004/jan/08/141.htm (5) Artículos de la Constitución Argentina. Artículo 14.- Todos los habitantes de la Nación gozan de los siguientes derechos conforme a las leyes que reglamenten su ejercicio; a saber: de trabajar y ejercer toda industria lícita; de navegar y comerciar; de peticionar a las autoridades; de entrar, permanecer, transitar y salir del territorio argentino; de publicar sus ideas por la prensa sin censura previa; de usar y disponer de su propiedad; de asociarse con fines útiles; de profesar libremente su culto; de enseñar y aprender. Artículo 40.- El Congreso, a iniciativa de la Cámara de Diputados, podrá someter a consulta popular un proyecto de ley. La ley de convocatoria no podrá ser vetada. El voto afirmativo del proyecto por el pueblo de la Nación lo convertirá en ley y su promulgación será automática. Guillermo Parodi Paraguay Profesor universitario gparodi@quanta.com.py Link permanente: http://www.lanacion.com.ar/636323 19-Diciembre-2004: La delincuencia crece en Argentina, donde se registran 143 delitos a la hora La sensación de inseguridad sigue creciendo en Argentina, donde se denuncian 143 delitos por hora, según las últimas estadísticas de la Dirección de Política Criminal (DPC), mientras los expertos insisten en colocar a la desigualdad social como disparadora de la violencia. El informe de la DPC precisa que en el primer semestre de 2004, cada 60 minutos, se denunciaron en todo el país más de 140 delitos violentos, esto es asaltos, asesinatos, violaciones, accidentes de tránsito y lesiones por peleas. Los datos revelan que el nivel de violencia en el país, tras una cota histórica que se alcanzó con las crisis de 2001/2002, retrocede tan lentamente que no permite reducir la sensación de inseguridad. Según las estadísticas el delito tuvo una disminución de poco más del 1 por ciento si se compara una proyección del primer semestre de este año contra todo el 2003 y de casi el 5 por ciento si se comparan sólo los primeros semestres de cada año, pero la sensación de seguridad siguió creciendo. Para Mariano Ciafardini, director de Política Criminal del Ministerio de Justicia, el retroceso está vinculado a la gestión del Estado. "Se le tiene que empezar a atribuir a las 113 Caracterización de la delincuencia en Argentina a través de Sistemas Inteligentes políticas de seguridad y a algún rebote de las políticas sociales", sostuvo el funcionario, aunque admitió al diario Clarín que los guarismos "siguen siendo altísimos". La tasa de asesinatos, por ejemplo, es de 6,32 homicidios cada 100.000 habitantes, muy lejos de las tasas de Chile (3 puntos) o de Canadá (1,8 o 1,7 puntos). Sin embargo, todavía guarda una considerable distancia de la de Brasil (19 cada cien mil habitantes) o de Colombia, donde en 2000 alcanzó los 65 puntos. "Tenemos cifras tercermundistas, aunque no estamos tan mal si nos comparamos con otros países de la región", sostuvo Hernán Olagueta, analista de la DPC. El resultado que las autoridades destacan como más positivo es la disminución de los asesinatos, en particular en la provincia de Buenos Aires, donde se ubica el populoso Gran Buenos Aires (periferia capitalina), que es el lugar más peligroso del país. En la provincia, en 2003 se registraron 115 asesinatos por mes y entre enero y junio de este año, la cifra se redujo a 89,5. El registro de asesinatos es uno de los más importantes en las estadísticas porque tiene el mayor índice de denuncias. http://www.lukor.com/not-mun/america/0412/19215900.htm 114