SISTEMA BASADO EN EL CONOCIMIENTO CON ALGORITMOS DEL ENFOQUE LÓGICO COMBINATORIO Knowledge-based system with approach to algorithms of the combinatorial logical Yasser Azán Basallo*1, Antonio Hernández Dominguez1, Ubel Angel Fonseca Cedeño1, Sailyn Maria Parra Lopez1, Natalia Martínez Sanchez2, Vivian Estrada Senti3 1 Centro Telemática, Facultad 2. Universidad de las Ciencias Informáticas, Cuba, Carretera a San Antonio de los Baños, km 2 ½, Torrens, Boyeros, La Habana, Cuba. CP.: 19370. 2 Vicerrectoría de Formación. Universidad de las Ciencias Informáticas, Cuba, Carretera a San Antonio de los Baños, km 2 ½, Torrens, Boyeros, La Habana, Cuba. CP.: 19370. 3 Centro Internacional del Postgrado. Universidad de las Ciencias Informáticas, Cuba, Carretera a San Antonio de los Baños, km 2 ½, Torrens, Boyeros, La Habana, Cuba. CP.: 19370. * Correo de contacto: yazan@uci. RESUMEN: El Departamento de Seguridad Informática de ETECSA utiliza las listas de chequeo de seguridad del Centro de Seguridad de la Internet para diagnosticar el riesgo de las vulnerabilidad de las tecnologías de las información (TI). En las TI están los sistemas gestores de bases de datos (SGBD) donde se guardan los datos de muchas aplicaciones nacionales. Para realizar este proceso de auditoría utilizan la aplicación SASGBD. La aplicación utiliza la técnica de inteligencia artificial (IA): el Razonamiento Basado en Casos (RBC) para el diagnóstico de la evaluación del riesgo de seguridad de la información. Uno de los problemas de la aplicación con esta técnica de IA, es que a medida que crece la base de casos, el rendimiento de la aplicación disminuye considerablemente. Debido a esto, en este trabajo se propone la utilización de algoritmos del enfoque lógico combinatorio en conjunto con el RBC, para la evaluación del riesgo de seguridad de la información en los SGBD. Palabras Clave: enfoque lógico combinatorio, Holotipo, peso informacional, rasgos relevantes ABSTRACT: The Computer Security Department of ETECSA used the checklists from the Center Internet Security for diagnose the risk of vulnerability of information technologies (IT). In the IT is in the database management systems (DBMS) where many data from national applications are saved. To perform the audit process is used SASGBD application. The application uses the technique of artificial intelligence (AI): the case-based reasoning (CBR) for the diagnosis of the risk assessment of information security. One of the problems of implementing this technique is the grow of case base, because the application performance is considerably reduced. So, in this paper is proposed the use of algorithms of the combinatorial logical in conjunction with the RBC for the risk assessment of information security in the DBMS. KeyWords: combinatorial logical, Holotipo, informational weight, relevant features. “XII Seminario Iberoamericano de Seguridad en las Tecnologías de la Información” AZÁN BASALLO, Y | “SISTEMA BASADO EN EL CONOCIMIENTO CON ALGORITMOS DEL ENFOQUE LÓGICO COMBINATORIO” INTRODUCCIÓN DESARROLLO En el Departamento de Seguridad Informática (DSI) de la empresa cubana ETECSA tiene entre sus principales responsabilidades garantizar y mantener la integridad de los sistemas gestores de bases de datos (SGBD), sistemas operativos y aplicaciones web que soportan todo el trabajo de las telecomunicaciones en Cuba. Uno de los pasos para garantizar la integridad de los datos, es a través de la realización de auditorías informáticas periódicas a las mencionadas tecnologías. La seguridad de las bases de datos reviste una alta importancia como expone (Ramakanth y Vinod, 2011): El 17 de agosto de 2009, el Departamento de Justicia de los Estados Unidos acusó a un ciudadano por el robo de 130 millones en tarjetas de crédito usando ataques de inyección de SQL. Aproximadamente 500,000 páginas web que usaban como servidor el Microsoft IIS y el servidor de SQL, fueron atacadas entre abril y agosto del 2008 usando la inyección de SQL. En julio del 2008, el sitio Web de Malasia de Karspersky fue atacado usando esta misma técnica. Se consideró que los algoritmos basados en el enfoque lógico combinatorio son apropiados, puesto que la limitante principal que se le señala a este enfoque no está presente, debido a que el costo computacional no se considera muy alto. El análisis que se describe en (Santiesteban Alganza y Pons Porrata, 2003) sobre el comportamiento de diferentes algoritmos del enfoque lógico combinatorio para el cálculo del conjunto de testores típicos para matrices de diferentes dimensiones corrobora la afirmación expuesta anteriormente. Además en el trabajo (Sánchez, Lorenzo, y Valdivia, 2009) se describe un modelo basado en el RBC el cual utiliza el enfoque de la lógica combinatoria, lo que expone la viabilidad de la unión de la técnica de inteligencia artificial con el enfoque de la lógica combinatoria. El departamento mencionado tiene estandarizado con listas de chequeo todo el proceso de revisión de los SGBD (CIS, 2013). Para realizar todo el proceso de auditoría de seguridad informática cuentan con el Sistema para la realización de Auditorías a los Gestores de Base de Datos (SASGBD) con el que se realizan este proceso a los SGBD alojados en los servidores de ETECSA. En estos momentos la aplicación SASGBD tiene implementado como técnica de inteligencia artificial, el RBC. El RBC, señalan (Zhang, Lu, y Zhang, 2011), emplea las experiencias pasadas en forma de casos almacenados en una base de caso para apoyar la toma de decisiones en situaciones actuales similares. Por esta característica se emplea para determinar el diagnóstico en la evaluación del riesgo en los servidores de bases de datos auditados. La solución SASGBD presenta problema con el tiempo de respuesta en los algoritmos de recuperación y adaptación para determinar la evaluación del riesgo de seguridad en el proceso de diagnóstico de la auditoría a medida que crece la base de conocimiento. Típico problema en las aplicaciones que implementan el RBC. Por eso se introducen algoritmos pertenecientes al enfoque lógico combinatorio (Ruíz, 1993) como solución a los problemas presentados. ALGORITMOS DEL ENFOQUE DE LA LÓGICA COMBINATORIA El algoritmo de acceso y recuperación tiene una secuencia lógica de pasos como se describe en (Martínez y Pérez, 2003) para la obtención de los casos similares que se utilizarán para obtener el diagnóstico de la evaluación del riesgo de seguridad de la información. La intención de utilizar el enfoque lógico combinatorio dentro del método de recuperación es para disminuir el tiempo de respuesta. El algoritmo HOLOTIPO (Ruíz, 1993), es empleado para determinar el caso “representante del grupo”, que se corresponde con el caso que más se parece los restantes casos de su grupo, del enfoque lógico combinatorio. Se selecciona este método por los resultados obtenidos en la investigación (Sánchez y otros, 2009) aplicado para la BC de la investigación de la misma. A continuación se muestran dos algoritmos adaptados por la necesidad de esta investigación a partir de lo publicado en (Sánchez y otros, 2009). Se efectuó un cambio en el algoritmo donde se utilizaba el LEX, publicado en (Alganza y Porrata, 2003) para seleccionar el conjunto de testores típicos, el cual es sustituido por el BR, divulgado en (LiasRodríguez y Pons-Porrata, 2009) donde se afirma su superioridad. “XII Seminario Iberoamericano de Seguridad en las Tecnologías de la Información” AZÁN BASALLO, Y | “SISTEMA BASADO EN EL CONOCIMIENTO CON ALGORITMOS DEL ENFOQUE LÓGICO COMBINATORIO” Algoritmo en seudocódigo: Selección_Rasgos_Relevantes (ListaCasos) { 1. Formar la Matriz Básica (MB). 2. Devolver el conjunto de testores típicos utilizando el algoritmo BR. Algoritmo en seudocódigo: Calcular_Pesos_Relevantes (conjunto de testores típicos) 1. Calcular el peso de los rasgos que aparece n en la familia de testores típicos aplicando las siguientes f órmulas: 2. Devolver } Las variables en las fórmulas empleadas son: : Número de testores típicos donde aparece el rasgo i. Número de testores típicos. Número de rasgos que forman el testor Donde α, β>0 y α+β=1, α y β son dos variables que ponderan la influencia o participación de : frecuencia de aparición y :longitud de los testores respectivamente en . Se consideran α, β = 0,5 La función de semejanza de los casos que va a ser utilizada en el algoritmo de recuperación es la siguiente: Donde es el peso de importancia de los rasgos, en este caso, el valor a utilizar es el del impacto especificado por los expertos para cada parámetro de la lista de chequeo. Esta función está implicada en el algoritmo de acceso y recuperación de casos. Los casos se almacenan en una base de datos referencial, posibilitando la recuperación de los casos a través de consultas SQL. Como variables de entrada, son importantes el nombre (GestorBD) y la versión del sistema gestor de bases de datos (VersionBD), premisas indispensables del algoritmo para distinguir los casos necesarios a recuperar según el servidor monitoreado y se requiere realizar el diagnóstico. Algoritmo en seudocódigo: AccesoRecuperación (CasoActual, GestorBD, VersionBD, cantCasos=10) { Lista_casos_representantes = ObtenerCasosRepresentantes (GestorBD, VersionBD) CasoMasSemejante = nuevo Caso () semejanza = 0, menorSemejanza = 2 Para (i = 1 hasta i <= Lista_casos_representantes.tamaño; i++) {//Buscar el caso representante más similar. semejanza = CalculoSemejanza (CasoActual, Lista_casos_representantes(i)) Si (semejanza <= umbral) { Si (semejanza < menorSemejanza) { menorSemejanza = semejanza CasoMasSemejanteRepresentante = Lista_casos_representantes (i) }}}//cierre del ciclo Lista_casos = ObtenerCasos (GestorBD, VersionBD, CasoMasSemejanteRepresentante.evaluacion) ListaCasosSemejantes = nueva Lista (), Lista_ semejanza = nueva Lista () Para (i = 1 hasta i <= Lista_casos.tamaño; i++) {//Buscar el caso más similar en el grupo perteneciente al caso representante más semejante semejanza = CalculoSemejanza (CasoActual, Lista_casos (i)) “XII Seminario Iberoamericano de Seguridad en las Tecnologías de la Información” AZÁN BASALLO, Y | “SISTEMA BASADO EN EL CONOCIMIENTO CON ALGORITMOS DEL ENFOQUE LÓGICO COMBINATORIO” Si (semejanza <= umbral) { posición = ListaCasosSemejantes.adicionar (Lista_casos (i)) Lista_semejanza.adicionar(semejanza, posición) }}//cierre del ciclo Lista10Casos=OrdenarLista( ListaCasosSemejantes, Lista_ semejanza, cantCasos) Devolver Lista10Casos} Otra evidencia de la unión del RBC y el enfoque de la lógica combinatoria fue el cálculo del umbral. El umbral de semejanza necesario para lograr llegar a determinar el nivel de semejanza entre los casos comparados. Si el auditor o supervisor, tiene problemas con la definición del umbral de semejanza, se utilizan criterios agrupacionales del enfoque lógico combinatorio sin aprendizaje. Se selecciona la ecuación publicada en (Ruíz, 1993) y por el resultado obtenido en (Sánchez y otros, 2009) para la organización jerárquica de la BC de la investigación se escoge la siguiente ecuación: Dónde: m: Número de casos i: Valor que recorrerá las filas j: Valor que recorrerá las columnas : Valor de semejanza entre el caso mejanza. RESULTADOS Y DISCUSIÓN Se incorporan los algoritmos definidos en este trabajo a la solución informática SASGBD, la cual tiene implementada la técnica RBC para determinar los casos similares para los SGBD: PostgreSQL, MySQL, SQL Server y Oracle porque son los principales gestores hospedados en los servidores de ETECSA. En la figura 1 a continuación se muestra un ejemplo de como la misma recomienda una evaluación para una auditoría. Fig. 1: Aplicación SASGBD con la técnica RBC. y el caso Para utilizar la fórmula anterior, es necesario crear la matriz de semejanza. La matriz se obtiene al ubicar en las filas y las columnas, los casos que se encuentran almacenados en la BC y en la intersección están el valor de semejanza entre ellos al emplear la función de semejanza escrita anteriormente. Como a la hora de crear la BC, se siguió una política de particionamiento, seguidas en los algoritmos como WCOID (Smiti y Elouedi, 2014) y COID (Smiti y Elouedi, 2010), mencionados anteriormente para dividir los casos según el tipo de SGBD. Solo se deben seleccionar los casos que pertenecen a un mismo tipo de gestor de bases de datos. De esta forma se contribuye a mejorar el tiempo de respuesta en el procesamiento de la matriz de se- Se incorpora al algoritmo de acceso y recuperación la determinación de los casos representantes para cada grupo de casos clasificados en Alto, Medio o Bajo. Se logra generar automáticamente un informe y proponer un nivel de riesgo sin tener que analizar toda la BC para un mismo gestor y versión de base de datos. Además, se logra ajustar los pesos utilizados en la función de semejanza de forma automática utilizando el mismo enfoque así como determinar los rasgos relevantes en la determinación de los casos semejantes. “XII Seminario Iberoamericano de Seguridad en las Tecnologías de la Información” AZÁN BASALLO, Y | “SISTEMA BASADO EN EL CONOCIMIENTO CON ALGORITMOS DEL ENFOQUE LÓGICO COMBINATORIO” CONCLUSIONES En este trabajo se ha presentado una propuesta de solución para la evaluación del riesgo de la seguridad de la información a los gestores de bases de datos. Con la incorporación a la técnica RBC, al análisis del riesgo de seguridad de la información, de varios algoritmos del enfoque lógico combinatorio. Repercutiendo en una mejoría en el algoritmo de acceso y recuperación de esta técnica de inteligencia artificial. En la herramienta informática SASGBD se implementó la propuesta del vínculo entre el RBC y el enfoque lógico combinatorio, demostrando la viabilidad de la propuesta. REFERENCIAS BIBLIOGRÁFICAS 1. Alganza, Y. S. y Porrata, A. P. (2003). LEX: Un nuevo algoritmo para el cálculo de los testores típicos. Revista Ciencias Matemáticas, Vol. 21(1). 2. CIS, C. f. I. S. (2013). CIS Benchmarks Recuperado 12/11/2013, de http://benchmarks.cisecurity.org/downloads/multi form/ 3. Lias-Rodríguez, A. y Pons-Porrata, A. (2009). Un Nuevo Algoritmo de Escala Exterior para el Cálculo de los Testores Típicos. Paper presented at the VII Congreso Nacional de Reconocimiento de Patrones RECPAT 2009, Santiago de Cuba, Cuba. 4. Martínez, I. G. y Pérez, R. E. B. (2003). Un Modelo para la Toma de Decisiones usando Razonamiento Basado en Casos en condiciones de Incertidumbre. Tesis Doctoral, Universidad Central Marta Abreu, Santa Clara. 5. Ramakanth, D. y Vinod, K. (2011). SQL Injection - Database Attack Revolution And Preven- tion. Journal of International Commercial Law and Technology, 6(4), 224-231. Recuperado de http://www.jiclt.com/index.php/jiclt/article/view/14 1/139 6. Ruíz, J. (1993). Modelos Matemáticos para el Reconocimiento de Patrones. Edit. UCLV. 7. Sánchez, N. M., Lorenzo, M. M. G. y Valdivia, Z. Z. G. (2009). Modelo para diseñar sistemas de enseñanza-aprendizaje inteligentes utilizando el razonamiento basado en casos. Revista Avances en Sistemas e Informática, Vol. 6(3). 8. Santiesteban Alganza, Y. y Pons Porrata, A. (2003). LEX: Un nuevo algoritmo para el cálculo de los testores típicos. Revista Ciencias Matemáticas, Vol. 21(1). 9. Smiti, A. y Elouedi, Z. (2010). COID: Maintaining Case Method Based on Clustering, Outliers and Internal Detection. Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing 2010, Vol. 295. 10. Smiti, A. y Elouedi, Z. (2014). WCOID-DG: An approach for case base maintenance based on Weighting, Clustering, Outliers, Internal Detection and Dbsan-Gmeans. Journal of Computer and System Sciences, Vol. 80(1). 11. Zhang, J., Lu, J. y Zhang, G. (2011). A Hybrid Knowledge-based Risk Prediction Method Using Fuzzy Logic and CBR for Avian Influenza Early Warning. Journal of Multiple-Valued Logic & Soft Computing, 17(4), 363-386. Recuperado de http://web.ebscohost.com/ehost/pdfviewer/pdfvi ewer?sid=83c1714d-fa11-46eaa0f3c955d04587e0%40sessionmgr14&vid=1&hi d=19 “XII Seminario Iberoamericano de Seguridad en las Tecnologías de la Información”