UNIVERSIDAD DON BOSCO VICERRECTORÍA DE ESTUDIOS DE POSGRADO MAESTRÍA EN SEGURIDAD Y GESTIÓN DE RIESGOS INFORMÁTICOS RESPALDO Y PROTECCIÓN DE DATOS PROYECTO: DESARROLLO DE PLAN DE CONTINGENCIA Y RECUPERACIÓN DOCENTE: LIC. NELSON CHACÓN REYES PRESENTADO POR - HELLMANNS: OSCAR DANIEL ELÍAS SÁNCHEZ ERICK BERNARDO GIRÓN CASTRO SANDRA BEATRIZ JUSTINIANO AYALA RODRIGO ANTONIO MARTÍNEZ ÁLVAREZ ANTIGUO CUSCATLÁN, LA LIBERTAD, EL SALVADOR, CENTROAMÉRICA. SEPTIEMBRE 2019 Índice Introducción 4 Contexto de la Organización 5 Misión: 6 Visión: 6 Segmento: Comercialización 6 Partes interesadas: 6 Alcance del SGCN: 7 Política del SGCN: 7 Objetivo general del SGCN: 7 Objetivos específicos: 7 Medidores de desempeño del Sistema de Gestión de Continuidad de Negocio: 8 Matriz de riesgos 10 Esquema de dependencias de procesos 18 Matriz de Impacto: 19 1. 21 Objetivos de la estrategia. 1.1. Matriz RACI 21 1.2. Tiempos objetivos 23 2. 2.1. Alternativas estratégicas de Recuperación Estrategia 1: sistema de gestión de continuidad de negocio [SGCN]. 2.2. Estrategia 2: establecer la estructura para el manejo de crisis del plan de continuidad de negocio – BCP. 2.3. 3. Estrategia 3: fortalecimiento de acuerdos de niveles de servicio SLA’s. Alternativas de respaldo de datos 25 26 28 31 32 3.1. Servidor Oracle 32 3.2. Datos de Hypervisor 34 3.3. Servidor Active Directory 34 3.4. Se debe hacer una copia de seguridad de al menos un controlador de dominio en un dominio 34 3.5. Realizar copias de seguridad de Active Directory regularmente 35 3.6. Utilizar un software que garantice la coherencia de los datos. 35 4. Monitoreo y evaluación SGCN/BC 35 4.1. Pruebas aplicables en la ejecución del SGCN / BCP: 36 4.2. Documentos que deben ser actualizados constantemente 36 4.3. Actualización de los componentes según el PDCA 37 5. Recomendaciones 39 5.1. Plan de pruebas 39 5.2. Entrenamiento y distribución del Plan 40 Introducción Las empresas, actualmente, se enfrentan a diversos cambios y desafíos que ponen en riesgo la continuidad de sus operaciones, algunos están relacionados a la tecnología, otros a las regulaciones nacionales e internacionales, e incluso la propia cultura organizacional; en todos estos aspectos, es de vital importancia considerar que la generación de ingresos de un negocio se fundamenta principalmente en sus operaciones. Las operaciones más importantes, aquellas que permiten que el flujo del negocio continúe con normalidad y que permiten que se genere rentabilidad, se clasifican como activos y procesos críticos, el buen funcionamiento de estas operaciones depende de un esfuerzo conjunto de todas las unidades de la organización; por lo cual, las empresas identifican la necesidad de integrar un equipo multidisciplinario que les permita implementar un Sistema de Gestión de la Continuidad del Negocio (SGCN) para prever, actuar y recuperarse, ante eventos que ponen en riesgo el funcionamiento normal de sus operaciones. La definición de un SGCN, parte del análisis de la información del contexto organizacional: todos los asuntos internos y externos que influyen en sus operaciones, como sus objetivos de negocio y necesidades propias del mismo; la planificación del SGCN proporciona las guías para su correcto desempeño, proyectándose a la mínima afectación de las operaciones de acuerdo con apetito de riesgo determinado por el negocio. A continuación, se presenta la información que servirá como insumos en el análisis y planificación del SGCN para el proceso de comercialización de la empresa Hellman’s Paint, una empresa dedicada a la fabricación, distribución y comercialización de tintes, barnices y pinturas. 4 Contexto de la Organización Contexto de la organización: Hellman’s Painting Hellmans Painting es una empresa sumamente reconocida a nivel nacional, por la alta calidad de su producto final; la empresa agrupa sus operaciones en tres diferentes segmentos de negocio: ▪ Producción: elaboración de tintes, barnices y pinturas. ▪ Distribución: envío a las tiendas interiores del país, y a los centros de distribución de la región (desde Guatemala hasta Panamá). ▪ Comercialización: tiendas para el consumidor final. La empresa debe cumplir con diferentes normativas y leyes según los diferentes segmentos del negocio: ▪ ▪ ▪ Producción: o Ley del medio ambiente. o Ley general de prevención de riesgos en los lugares de trabajo. Distribución: o Regulaciones aduaneras. o Tratado de libre comercio. o Ley de lavado de dinero (AML). o Ley de IVA. Comercialización: o Ley de lavado de dinero (AML). o Ley de protección al consumidor. o Ley de IVA. Actualmente, Hellmans Painting es uno de los fabricantes y comercializadores más reconocidos en el país, la empresa ocupa el 51% del mercado nacional en la comercialización. 5 Misión: Ofrecer al mercado las mejores pinturas y revestimientos a través de la excelencia y el compromiso con nuestros valores. Visión: Alcanzar el liderazgo del mercado de pinturas y revestimientos en Centroamérica, expresado o en el reconocimiento de los clientes, logrando nuestros objetivos de manera sustentable. Segmento: Comercialización En este segmento, se identifican 40 tiendas distribuidas a lo largo del país, concentrándose la mayor cantidad en San Salvador, con 14 tiendas locales; en cada una de ellas se venden tintes, barnices, pinturas y accesorios varios como brochas, rodillos, bandejas, solventes, lijas, etc. Los clientes pueden adquirir sus productos en modalidad tanto minorista como mayorista, con métodos de pago en efectivo y tarjeta de débito o crédito; adicionalmente, posee el canal de venta en línea, representando este el 30% del cierre de venta diario. Partes interesadas: INTERNAS EXTERNAS Centros de distribución regional Clientes Gerentes de tiendas Proveedores Junta directiva 6 Alcance del SGCN: El SGCN se enmarca en el segmento de negocio comercialización. Su aplicabilidad se enfoca en garantizar la disponibilidad de los recursos y servicios que permitan la protección de datos en los procesos de venta de tintes, barnices, y pinturas; a través de la disponibilidad del inventario, para los procesos de cobro facturación y el resguardo de datos sensibles y vitales para el Negocio. Política del SGCN: Hellmans Painting busca garantizar que los procesos de consulta de inventario, métodos de cobro y proceso de facturación, operen adecuadamente, bajo los principios de continuidad, confiabilidad, calidad y oportunidad, para asegurar la venta del producto final y la satisfacción del cliente, mediante la implementación de un plan de continuidad del negocio. Para la aplicación del plan de continuidad de negocio se establecen como elementos primordiales los siguientes: la salvaguarda de los intereses del consumidor final, la protección del ambiente, protección de los activos de la empresa, protección de datos sensibles y la continuidad de las operaciones. Objetivo general del SGCN: Definir los lineamientos que se deberán seguir antes, durante y después de una interrupción en las operaciones de consulta de inventario, cobro, y facturación de las tiendas, que respondan asertiva y oportunamente ante eventos que afecten el funcionamiento normal de los servicios. Objetivos específicos: ▪ Establecer controles para la mitigación de los riesgos asociados a la disponibilidad de los servidores de inventario y facturación de tiendas. 7 ▪ Garantizar la disponibilidad de los enlaces para el acceso a la red empresarial. ▪ Establecer el mecanismo de recuperación ante eventos que representen afectación de las operaciones de consulta de inventario, cobro y facturación. Medidores de desempeño del Sistema de Gestión de Continuidad de Negocio: ● Disponibilidad los servidores MTBF = Tiempo total de la correcta operación en el periodo / número de fallas MTTR = Total de horas en tiempo fuera de línea causada por fallas del sistema / número de fallas Disponibilidad = MTBF/(MTTR+MTBF) (Mean Time Between Failure, Mean Time To Recover). Se espera un valor de disponibilidad total del 97.5% Mensual. ● Disponibilidad en los enlaces para el acceso de red empresarial Se espera un valor de disponibilidad en el mes sea menos de 97.5% ● Disponibilidad del servidor de base datos MTBF = total time of correct operation in a period/number of failures MTTR = total hours of downtime caused by system failures/number of failures Availability = MTBF/(MTTR+MTBF) (Mean Time Between Failure, Mean Time To Recover). Se espera un valor de disponibilidad total del 97.5% Mensual. ● Frecuencia de ejercicios del plan de continuidad de negocio. Frecuencia de ejercicio = total de ejercicios / ejercicios planeados Se espera un valor de 2 ejercicios semestrales cada año. ● Porcentaje de ventas en condiciones del plan de continuidad de negocio. Se espera un valor del 90% 8 ● Llevar a cabo una reunión informativa a la gerencia sobre las actividades de continuidad de negocio y recuperación de desastres anualmente Reunión informativa = Total de reuniones informativas / reuniones informativas impartidas Se espera un valor de 2 reuniones semestrales en el primer año con un 80% de asistencia. ● Tasa de éxito de la prueba de phishing Los esfuerzos de seguridad cibernética relacionados con el usuario son extremadamente importantes, pero son difíciles de cuantificar. El phishing fue la tercera variedad de acción más común en violaciones de datos en 2017. Es un método probado y verdadero de cibercrimen que no requiere romper firewalls avanzados y otras defensas técnicas. Un indicador de qué porcentaje de la población de sus empleados está cayendo por intentos de phishing les da a los lectores de su informe una idea del riesgo relacionado con los humanos que enfrenta su organización. % de empleados cayendo en phishing = Personas que cayeron en phishing / cantidad total de empleados 9 Matriz de riesgos Nombre de la empresa: Hellmans Painting Nombre del proceso: Comercialización de pinturas Septiembre 2019 MATRIZ DE RIESGOS DE SEGURIDAD DE DATOS Identificación del riesgo Categoría Activo Criticidad Amenaza Consecuencia de la Frecuencia materialización Datos Sensibles Datos en Alto Movimiento. Ataque man-in-themiddle Data breach. Media Datos Sensibles Datos en Reposo Acceso no autorizado. Data breach. Media Datos Sensibles Datos en Reposo Alto Alto Ataques DoS, como ransomware Costos, No acceso a Datos Baja Administración del riesgo Descripción del riesgo Interno Probabilidad Impacto Resultado No Tolerable Es un ataque en el que se adquiere la capacidad de Externo leer, insertar y modificar a voluntad. Falta de un sistema que segmente los niveles de acceso y permita a los Interno usuarios acceder a lo necesario para realizar su trabajo Ransomware es un software malicioso que al infectar nuestro equipo le da al ciberdelincuente la capacidad de bloquear un dispositivo Externo desde una ubicación remota y encriptar nuestros archivos quitándonos el control de toda la información y Medidas para administrar el riesgo Responsable Tolerable 3 5 15 Cifrado, uso de tecnologías Regularmente VPN, así como Administrador de Redes Tolerable protocolos seguros: HTTPS, SSL y TLS 3 5 15 Regularmente Implementación Oficial de Tolerable de sistema DLP. Seguridad Tolerable 10 Implementación de sistemas de protección como IPS/IDS, Regularmente Firewalls, Administrador Tolerable Antivirus (Tanto de Redes a nivel perimetral como Endpoint). Tolerable 2 5 Tolerable 10 datos almacenados. Datos Sensibles Datos en Uso Alto Ataques hombre en el medio. Data breach. Media Datos Sensibles Datos en Uso Alto Ataques Phishing Data breach, accesos no autorizados. Media Datos Sensibles Datos en Uso/Datos en reposo. Alto Copia no autorizada en Data breach. sistemas de almacenamiento Masivo Media Media Datos Sensibles Datos en Reposo Alto Eliminación/modificación No acceso a accidental o datos. malintencionada. Datos Sensibles Bases de Datos Alto Falta de administración de cambios. Falta de Auditoria Media Es un ataque en el que se adquiere la capacidad de leer, insertar y modificar a voluntad. Un modelo de abuso informático y que se comete mediante el uso de un tipo de ingeniería social, caracterizado por intentar adquirir información confidencial de forma fraudulenta. Uso de dispositivos de almacenamiento masivo para extraer información de computadoras Eliminación de registros de bases de datos de forma intencionada o accidental. Falta de un sistema que pueda realizar el seguimiento y que registre los cambios realizados en sistemas informáticos así como también que indique los motivos por los cuales se realizaron Externo 3 5 15 Uso de sesiones Regularmente con cifrado: Administrador de Servidores Tolerable HTTPS, SSL y TLS Externo 3 5 15 Regularmente Oficial de de programas de Seguridad Tolerable entrenamiento Tolerable 15 Implementación de GPO que Regularmente bloqueen uso Administrador de Servidores Tolerable de USB, implementación de DLP. Tolerable Oficial de Seguridad Tolerable Oficial de Seguridad Tolerable Tolerable Implementación Interno 3 5 Interno 3 5 15 Política de Regularmente clasificación de Tolerable datos y Política de respaldo. Interno 3 5 15 Regularmente Entrenamiento Tolerable de Usuarios 11 Bases de datos Bases de datos Bases de datos Bases de Datos Bases de datos Bases de Datos Bases de datos Bases de Datos Cognos Servidores Analytics Alto Alto Alto Alto Alto Integridad de información por sentencias: INSERT, DELETE, UPDATE Gestión de Privilegios Corrupción de datos. Data breach. Media Media Vulnerabilidades de Sistemas Operativos Data breach, DoS, etc. Media Inyección de SQL Corrupción de datos, Data breach Media Fallo de SistemaTemperatura Alta en Data Center No se podrán realizar Consultas de InventarioVentas se verán afectadas Media Realizar cambios en bases de datos sin la existencia de Interno una forma de restaurar la información Falta de un sistema que segmente los niveles de acceso y permita a los Interno usuarios acceder a lo necesario para realizar su trabajo Vulnerabilidades intrínsecas de los sistemas operativos que Externo pueden ser explotadas para ganar acceso a un equipo. Es un método de infiltración de código intruso que se vale de una vulnerabilidad informática presente en una Externo aplicación en el nivel de validación de las entradas para realizar operaciones sobre una base de datos. Temperatura Alta puede obligar a los equipos a un apagado automático o Interno 3 5 15 Implementación de respaldos diferenciales. Usos de buenas Regularmente DBA prácticas que Tolerable permitan la recuperación rápida de registros. 3 5 15 Control de Regularmente acceso a nivel Tolerable de consulta. Tolerable Tolerable DBA 3 5 15 Uso de IPS e implementación Regularmente Administrador de buenas de Servidores Tolerable prácticas de parcheo. 3 5 15 Regularmente Auditoria de Administrador Tolerable bases de datos. de Servidores 15 Instalación de un sistema de Regularmente alarma que Tolerable advierta aumentos de temperatura 3 5 Tolerable Tolerable Director de IT Tolerable 12 podrían dañarse. Servidores Servidores Servidores Servidores Servidores Servidores Cognos Analytics Cognos Analytics Servidor Oracle Servidor Oracle Servidor Oracle Servidor Oracle Alto Alto Desastre Natural Inundación Interferencia Humana Maliciosa-DDoS No se podrán realizar Consultas de InventarioVentas se verán afectadas No se podrán realizar Consultas de InventarioVentas se verán afectadas Baja Baja Fallo de SistemaTemperatura Alta en Data Center Cognos Analytics no podrá hacer consultas a la base de datos Media Alto Desastre Natural Inundación Cognos Analytics no podrá hacer consultas a la base de datos Baja Alto Cognos Analytics no Error Humanopodrá hacer Eliminación de Registros consultas a la base de datos Baja Alto Cognos Analytics no podrá hacer consultas a la base de datos Baja Alto Interferencia Humana Maliciosa-DDoS sobre el umbral adecuado Un desastre Natural o Inundación Interno podría llevar al daño del Equipo. Un ataque DDoS puede dejar el servicio inhabilitado por un tiempo prolongado. Temperatura Alta puede obligar a los equipos a un apagado automático o podrían dañarse. Un desastre Natural o Inundación podría llevar al daño del Equipo. La eliminación accidental de registros en la base de datos podría llevar a la pérdida de datos críticos Un ataque DDoS puede dejar el servicio inhabilitado por un tiempo prolongado. Externo 3 5 15 Creación de un Sistema Alterno Regularmente de Director de IT Tolerable Tolerable Procesamiento (Local o en la Nube) 3 5 15 Regularmente Utilización de Tolerable "In-Line" IPS Interno 3 5 15 Interno 2 5 10 Instalación de un sistema de alarma que Regularmente advierta Tolerable aumentos de temperatura sobre el umbral adecuado Creación de un Sistema Alterno Regularmente de Tolerable Procesamiento (Local o en la Nube) Interno 2 5 10 Creación de Regularmente Backups Tolerable Diferenciales cada 2 horas Externo 3 5 15 Regularmente Utilización de Tolerable "In-Line" IPS Administrador Tolerable de Servidores Administrador Tolerable de Servidores Administrador Tolerable de Servidores Administrador Tolerable de Servidores Administrador Tolerable de Servidores 13 Servidores Hypervisor Servidores Hypervisor Servidores Hypervisor Alto Fallo de SistemaTemperatura Alta en Data Center Interrupción parcial o Total Baja de servicios de red Alto Desastre Natural Inundación Interrupción parcial o Total Baja de servicios de red Alto Error HumanoEliminación de VMs Interrupción parcial o Total Baja de servicios de red Temperatura Alta puede obligar a los equipos a un Interno apagado automático o podrían dañarse. Un desastre Natural o Inundación Interno podría llevar al daño del Equipo. La eliminación accidental de una máquina virtual vinculada a servicios Interno críticos podría resultar en pérdida de información crítica. 1 2 2 Tolerable 1 2 2 Tolerable 1 2 2 Tolerable Instalación de un sistema de alarma que advierta aumentos de temperatura sobre el umbral adecuado Creación de un Sistema Alterno de Procesamiento (Local o en la Nube) Administrador Tolerable de Servidores Administrador Tolerable de Servidores Creación de Snapshots antes de realizar cualquier Administrador Tolerable cambio, así de Servidores como backups automáticos cada 24 horas. 14 15 Nombre de la empresa: Hellmans Painting Organización y procesos críticos Nombre del proceso Responsable del proceso Información de los activos de procesos críticos Activo Descripción del Activo RPO RTO WRT MTD/MTO Producción Administrador de Servidores Hypervisor Servidor físico que almacena el sistema de órdenes de producción. 60 minutos 60 minutos 2 horas 3 horas Producción Administrador de Servidores Servidor Oracle Base de datos que contiene la información de inventario, materias primas y órdenes de producción. 60 minutos 60 minutos 2 horas 3 horas Producción Administrador de Redes Firewall Equipo para la interconexión de toda la red empresarial, servidores y pc. 60 minutos 60 minutos 4 horas 5 horas Producción Administrador de IT UPS del servidor. Proporciona protección a los servidores. 60 minutos 60 minutos 2 horas 3 horas Distribución Administrador de Servidores Servidor físico que almacena el sistema de inventarios de telas, accesorios de costuras y empaque. 60 minutos 60 minutos 2 horas 3 horas Distribución Administrador de IT UPS del servidor. Proporciona protección a los servidores. 60 minutos 60 minutos 2 horas 3 horas Distribución Administrador de Redes Equipo para la interconexión de toda la red empresarial, servidores y pc. 60 minutos 60 minutos 4 horas 5 horas Hypervisor Firewall 16 Distribución Administrador de Servidores Servidor Oracle. Base de datos que contiene la información de inventario de telas, accesorios de costura y empaque. 60 minutos 60 minutos 2 horas 3 horas Comercialización Administrador de Servidores Hypervisor Servidor que almacena el sistema de exportaciones. 60 minutos 60 minutos 2 horas 3 horas Comercialización Administrador de Servidores Hypervisor Servidor que almacena el sistema de facturación. 60 minutos 60 minutos 2 horas 3 horas Comercialización Administrador de IT UPS del servidor. Proporciona protección a los servidores. 60 minutos 60 minutos 2 horas 3 horas Comercialización Administrador de Redes Firewall Equipo para la interconexión de toda la red empresarial, servidores y pc. 60 minutos 60 minutos 4 horas 5 horas Comercialización Administrador de Servidores Servidor Oracle. Base de datos que contiene la información de inventario de telas, accesorios de costura y empaque. 60 minutos 60 minutos 2 horas 3 horas Soporte a procesos Administrador de de negocio Servidores Unidad de cintas de respaldo. 60 minutos 60 minutos 3 horas 4 horas Soporte a procesos Administrador de de negocio Servidores Servidor Oracle. 60 minutos 60 minutos 2 horas 3 horas 24 horas 24 horas 12 horas 36 horas 120 minutos 60 minutos 60 minutos 2 horas Soporte a procesos Sistema de aire Administrador de IT de negocio acondicionado. Soporte a procesos Gerente General de negocio Planta eléctrica. Almacena los backups de los servidores. Almacena la información del negocio. Sistemas de aire acondicionado también ha sufrido fallas por su antigüedad. Planta eléctrica con capacidad para abastecer por dos horas. 17 Esquema de dependencias de procesos 18 Matriz de Impacto: Business Impact Assessment Critical Business Process Activo Cognos Analytics Servidor Oracle Hyperviso r Datos Asset Owner Director de IT Director de IT Director de IT Director de IT Hellmans Painting Recovery Protection Requirements Requiments in (VL-VH) hours RTO Criticality Availabi Confident Integ (Minut (VL-VH) lity iality rity os) RPO VH VH VH VH VH VH VH VH VH VH VH VH VH VH VH VH 30 60 30 30 120 minutos 120 minutos 120 minutos 60 minutos Dependencies Ventas-Inventario Cognos AnalytucsInventario-Ventas Servidores Virtuales Cognos AnalytucsInventario-Ventas 19 DESARROLLO DE ESTRATEGIA DE RECUPERACIÓN En la empresa deben de establecer un manual de procedimientos que describan las diferentes actividades para ayudar a planificar la recuperación y reanudación de las operaciones, así como el establecimiento de los siguientes roles que se describen a continuación. ✓ Coordinador de Recuperación de Negocios ● Coordina la ejecución de los planes de recuperación empresarial. ● Proporciona actualizaciones de estado al equipo de gestión de crisis. ✓ Coordinador de recuperación de TI. ● Coordinación de ejecución de planes de recuperación de TI. ● Resolver problemas de sistemas, redes y aplicaciones basado en el manual de respuesta a incidentes. ● Proporciona actualizaciones de estado al equipo de gestión de crisis. ✓ Líder del equipo de recuperación ● Proporciona liderazgo general al equipo ● Asegura que las actividades críticas se restauren dentro de los marcos de tiempo requeridos ● Mantiene al equipo de gestión de crisis evaluando el progreso de la continuidad del negocio ✓ Líder de Equipo Alterno • Funciones igualitarias al líder del equipo ✓ Coordinador de BCM • Ayudar al líder del equipo según sea necesario • Coordina las comunicaciones dentro del equipo y establecer contactos con otras áreas de la empresa. • Mantiene una matriz de estado en el progreso de la continuidad del negocio del equipo 20 ✓ Miembros del equipo • Realizar tareas de continuidad de negocios de acuerdo con el Plan de Continuidad y Recuperación de Negocios • Proporcionar asistencia con las tareas de continuidad del negocio cuando se le solicite • 1. Apoyar la tarea de recuperación a largo plazo cuando sea necesario Objetivos de la estrategia. La definición de los objetivos estará encaminada a la recuperación de todos los procesos de negocio afectados por cualquier eventualidad disruptiva. Una vez definidos los roles y los objetivos se iniciarán las operaciones de recuperación con los actores involucrados, estas personas se adecuarán a los lineamientos definidos por la empresa o comité designado en el manual y política de recuperación. 1.1. Matriz RACI Definiciones RACI R = Responsable Responsable de realizar la tarea (es decir, la persona real que hace el trabajo para completar la tarea). A = Aprobador En última instancia, responsable de la tarea que se realiza de manera satisfactoria. La persona responsable debe firmar el trabajo que realiza la persona responsable. C = Consultado Miembros del equipo cuya aportación se utiliza para completar la tarea. La comunicación con estos miembros será de doble vía. I = Informado Miembros del equipo que están informados sobre el estado de la tarea. La comunicación con estos miembros será de naturaleza unidireccional. ● Backup de la base de datos Actividad Técnico encargado Responsable de operaciones del sistema Notas 21 Poseer las credenciales para el portal de Azure I R, A Realizar el proceso de backup I R, A | Almacenar la copia de seguridad en lugar provisional I R, A El encargado deberá recuperar una copia de seguridad existente y almacenarla en una ubicación segura fuera de Azure. Técnico encargado Responsable de operaciones del sistema Notas Tener disponible la copia de seguridad de los datos C R, A Los datos del backup deben de estar disponibles y listos para ser copiados. Proveer la contraseña del backup de los datos cifrado I R, A Los datos para restaurar deben estar cifrados y se debe proporcionar la contraseña correcta para descifrarlo. ● Recuperación de los datos del backup Actividad Crear las nuevas máquinas virtuales a I, C R, A El responsable de operaciones del sistema debe velar que se desarrollen las nuevas máquinas virtuales a partir de las imágenes. 22 partir de las imágenes. Restaurar los datos. ● R, C I Se deberá abrir un ticket o una gestión para que se pueda proceder a la restauración de los datos. Snapshots de las máquinas virtuales Actividad Técnico encargado Configurar/ crear los snapshot de las máquinas virtuales I R,A Restaurar los snapshot I R, A Restaurar el ambiente del servidor R I, A 1.2. Responsable de operaciones del sistema Notas El responsable de operaciones del sistema debe de velar que se realicen los snapshot de manera programada y periódica. El técnico encargado debe asegurarse que se establezca el ambiente apropiado en el servidor. Tiempos objetivos El tiempo de recuperación (RTO), de las actividades que se han identificado bajo las condiciones mínimas aceptables para el funcionamiento de los sistemas críticos del negocio. 23 Máximo tiempo tolerable (MTO), Work Recovery Time (WRT), de las actividades que se identificaron previamente, se tomó en consideración acorde a los procesos a ejecutar en un ambiente virtualizado. Tiempo medio de detección (Mean Time to Detect), En un contexto de seguridad, el tiempo medio para detectar (MTTD) es una medida de cuánto tiempo le toma al equipo de ciberseguridad o al centro de operaciones de seguridad darse cuenta de un posible incidente de seguridad (en promedio). Esta estadística debería ser relativamente simple de encontrar en su plataforma de gestión de incidentes y eventos de seguridad (SIEM). MTTD muestra a los lectores de su informe cuánto tiempo pasan desapercibidas las amenazas de seguridad dentro de los sistemas de su organización. Los largos plazos de MTTD pueden indicar un mayor riesgo de que los actores de amenazas accedan a datos confidenciales. Según un análisis en las empresas de Estados Unidos detectar una brecha de seguridad de datos toma un promedio 206 días, por lo que se definirá para nuestro caso un tiempo estimado de 230 días en detectar cualquier brecha de seguridad en los datos. Para el punto objetivo de recuperación (RPO), se cuenta con métodos de backup que se realizarán a los activos de la información a nivel de hardware y software: ● Backups de Servidores virtuales: Se crearán políticas de respaldo para que se creen imágenes automáticas de manera periódica. ● Backups de Switches: Se tendrá un switch principal y un secundario que contará con un switch secundario con configuraciones similar, en caso de un desastre este switch podrá servir de reemplazo del otro. Ambos switches contarán con fuentes redundantes. 24 ● Backups de Túneles VPN Se contarán con dos proveedores de internet, se utilizará la tecnología SD-WAN para que ambos trabajen como uno solo y en caso exista una caída esta sea transparente para el negocio. ● Backups de Software Este se ejecuta en horas de la noche según la tarea programada, la información es extraída de los discos duros de la SAN y es llevada a las cintas de almacenamiento para ser organizada. ● Respaldo UPS Se contará con dos UPSs centralizados conectados en Alta Disponibilidad. 2. Alternativas estratégicas de Recuperación El establecimiento de estrategias o alternativas de recuperación se enmarca en las dimensiones de personas, procesos, tecnología e infraestructura física y se adecúa a las necesidades de Hellmans Painting según un diagnóstico de la situación actual en continuidad, el cual deberá de incluir la evaluación de riesgos (RA) y el análisis de impactos (BIA). Adicional a los resultados del diagnóstico, las estrategias deben ser alineadas al plan estratégico de tecnología, y a los requerimientos de servicio de la compañía, por lo que las estrategias de continuidad definidas para cubrir las dimensiones principales son: ● Sistema de gestión de continuidad de negocio – SGCN. ● Estructura para el BCP (Manejo de crisis). ● Fortalecimiento de Acuerdos de Niveles de Servicio. Para lo cual se define lo siguiente: 25 Como se puede observar en el diagrama anterior la naturaleza de las estrategias definirán la manera en la que las estrategias se aproximan a solventar y o mitigar los riesgos, estas pueden tener un orden de importancia y una habilidad de implementación que permitirá mitigar n riesgos de continuidad, siendo uno la más importante y tres la menos importante. Las estrategias definidas son consideradas las de mayor acercamiento a las necesidades de Hellman’s Painting y son abordadas como las más recomendables para su implementación siendo uno la más compleja de implementar y tres la más sencilla. 2.1. Estrategia 1: sistema de gestión de continuidad de negocio [SGCN]. Un sistema para administrar la continuidad de negocio establece sus bases en el ciclo de sistemas de gestión y mejora continua (PDCA) y define el conjunto de proceso, políticas, funciones y estructura que ayudan a establecer el marco de actuación bajo el cual se administra la continuidad del negocio. Tanto las políticas como los procesos de administración de la continuidad son elementos fundamentales para lograr un ambiente óptimo y dispuesto en La organización que buscan constantemente mantener y facilitar la continuidad de sus operaciones claves que son soporte del negocio. Lograr mantener la continuidad del negocio es una habilidad que 26 requiere la definición de un marco de referencia proactivo que facilite la alineación de las personas, los procesos, la tecnología y las actividades del día a día. ✓ Ventajas: ● Alineación de la estrategia de riesgos con la estrategia de negocio, que permite crear valor. ● Una sola área con una visión global de riesgos que permite definir acciones integradas para optimizar recursos, tiempo y controles para mitigar riesgos de la compañía. ● Interacción de las áreas de riesgo de la compañía, que comparte información y provee claridad en los riesgos claves de la organización. ● Definir oportunamente estrategias o controles de manera integral sobre riesgos de la compañía. ● Se tiene una gestión de riesgos más asertiva y mejora la eficiencia de los controles. 27 ● Ser proactivos en la detección de riesgos (detectar los riesgos antes de que ocurran) ● Se obtiene mejores fundamentos para la toma de decisiones y asignación de presupuesto para controlar las diversas clases de riesgo (financiero, operativo, seguros, reputación, entre otros. ✓ Desventajas ● La gestión de continuidad puede perder independencia y autonomía, frente a diversas evaluaciones de riesgos que afectan la compañía. ● Posible pérdida de liderazgo en la gestión transversal de la continuidad. ● Crea conflictos entre la importancia y la urgencia de los controles para mantener la continuidad, frente a controles de otras áreas de riesgo. 2.2. Estrategia 2: establecer la estructura para el manejo de crisis del plan de continuidad de negocio – BCP. La estructura para el manejo de crisis del Plan de Continuidad busca definir los equipos y el personal responsable por ejecutar las actividades de administración de crisis, recuperación y contingencias de tecnología y negocio. Desde la concepción de SGCN se debe asegurar que todos los participantes asignados tienen el perfil adecuado para ejecutar las actividades asignadas. La estructura puede integrar los siguientes equipos de respuesta: ● Comité Gerencial de Continuidad – Nivel Estratégico. ● Comité de Administración de Crisis – Nivel Táctico. ● Equipos de Recuperación – Nivel Operativo. ✓ Equipos del plan de continuidad A. comité de alta gerencia El Comité de Alta Gerencia es el nivel estratégico del plan y está encargado de tomar las decisiones frente al manejo de situaciones de crisis que al presentarse interrumpan las operaciones normales de la empresa. Igualmente, ratifica y autoriza 28 las estrategias o alternativas planteadas para afrontar las situaciones críticas. En el momento de que se evidencie y se anuncie el estado de contingencia, velará por el cumplimiento del plan de contingencia, el aseguramiento de la vida y activos de la compañía además solicitará los reportes de monitoreo del manejo de los eventos al Comité de Administración de Crisis. Este comité está conformado por: ● Presidente. ● Gerente de Servicio al Cliente. ● Gerente de Finanzas y Cumplimiento. ● Gerente de Gestión del Talento Humano y Desarrollo Organizacional. ● Gerente de Tecnologías de Información y Comunicaciones. ● Gerente de Mercados Empresariales. ● Gerente de Mercados Hogares y Personas. ● Gerente de Negocios Internacionales. ● Gerente de Desarrollo Corporativo. ● Asesor General. ● Delegado Control Interno. B. Comité de administración de crisis (CAC) Es el encargado del nivel táctico del plan, es quien realiza la evaluación inicial de los eventos de disruptivos o crisis que se presenten y que afectan el funcionamiento normal de la compañía. Además, velará por actualizar y probar el Plan de Continuidad en cada una de sus componentes, además de capacitar al personal que hace parte del plan. Este comité podrá estar conformado por: ● Director de Continuidad. ● Director de Continuidad Sustituto. ● Delegado de Dirección de Control Interno. ● Delegado de la Secretaría General. ● Asesor de Gestión de Seguros. ● Coordinador de Recuperación de Negocio Administrativo (CRNA). ● Coordinador de Recuperación de Negocio Cliente (CRNC). ● Coordinador de Recuperación de Tecnología (CRT). ● Coordinador de Comunicaciones en Crisis. ● Jefe de Emergencias. 29 C. Equipos de recuperación Estos equipos componen el nivel operativo del plan de continuidad, están encargados de la ejecución de los procedimientos y actividades necesarias para salvaguardar la vida de las personas, los activos de la compañía y recuperar las operaciones de los procesos críticos del negocio, administrativo y de la tecnología. Además, deben colaborar con el Comité de Administración de Crisis (CAC) para mantener actualizado y aprobado el Plan de Continuidad. Estos equipos se conforman así: ✓ Equipo de Recuperación de Negocio Administrativo ● Coordinador de Recuperación de Negocio Administrativo. ● Líder Facturación y Recaudo. ● Líder Gestión Financiera Y Contable. ● Líder Administrativo. ● Líder Talento Humano. Equipo de Recuperación de Negocio Cliente ● Coordinador de Recuperación de Negocio Cliente. ● Líder de Manejo de órdenes. ● Líder de Aprovisionar soluciones. ● Líder de Atender clientes. ● Manejo de Incidentes. ✓ Equipo de Recuperación de Tecnología ● Líder de Operar y mantener la infraestructura TIC- Agregación y Backbone. ● Líder de Operar y mantener la infraestructura TIC- IDC. Líder de Operar y mantener la infraestructura TIC- Equipos auxiliares. ● Líder de Operar y mantener la infraestructura TIC- Servicios de voz. ● Líder NOC. Equipo de Comunicaciones ● Coordinador de Comunicaciones en Crisis. ● Líder de Comunicación con Empleados y sus Familias. ● Líder de Comunicación con Clientes, Proveedores y Prensa. ● Líder de Comunicación con Junta Directiva. ● Líder de Comunicación entes de control. 30 ✓ Equipo de Manejo de Emergencias ● Jefe de Emergencias. ● Comandante Operativo en el Sitio. ● Brigada de emergencias. ● Líder de Seguridad Física. 2.3. Estrategia 3: fortalecimiento de acuerdos de niveles de servicio SLA’s. La dependencia de proveedores externos manifestada en el diagnóstico de continuidad requiere que la organización fortalezca la definición y sobre todo la administración de los acuerdos de nivel de servicio (ANS) dentro su proceso normal de contratación, para lo cual se deberá exigir en los contratos con proveedores, la inclusión de cláusulas que permita gestionar la continuidad de negocio en todo el servicio. Los proveedores actuales o los que se incorporen a la organización, que soporten funciones críticas del negocio, deben asegurarle al respectivo dueño de proceso y/o área responsable de la contratación, la implementación de las políticas del Modelo de Gestión de Continuidad del Negocio antes de la formalización y/o prórroga de los respectivos contratos y acuerdos de servicio; con el fin de garantizar que dichos servicios no se verán interrumpidos ante eventos de desastre o interrupciones mayores. Tanto los proveedores actuales como los próximos a contratar deben facilitar la evaluación y auditoría periódica en el momento de su vinculación o prórroga de sus contratos. La siguiente cláusula debe ser revisada por el área jurídica de la compañía, y dependerá del servicio contratado entre las partes: Cláusula de Continuidad: El Proveedor manifiesta que tiene cubierto mediante planes de respuesta sólidos a incidentes, la continuidad de los servicios prestados a la Empresa en los tiempos y mediante las condiciones establecidas por medio de un contrato. Estos planes de respuesta cuentan con el personal Calificado 31 y necesario para atender cualquier evento, incidente o situación que perturbe la operación normal de la Empresa. Reporte de Incidentes: El Proveedor se obliga a informar oportunamente a la empresa, cualquier incidente de en la operación que se presente sobre los productos / servicios, recursos tecnológicos o sus instalaciones y que, como consecuencia, pueda generar alteraciones de funcionamiento en la prestación de sus servicios a la Compañía. Auditoría: La Empresa se reserva el derecho de verificar cuando lo considere pertinente, directamente o por medio de otra persona que señale libremente, el cumplimiento de las disposiciones legales, reglamentarias y convencionales, de carácter administrativo, comercial y técnico por parte del Proveedor, así como la calidad comercial y técnica de los servicios prestados por el Proveedor y en particular, su ejecución a los parámetros de desempeño indicados por la Compañía. Al respecto, la Compañía podrá inspeccionar los trabajos, las instalaciones, equipos, registros e inventarios del Proveedor y solicitarle informes, que deberán ser presentados por éste en el lapso que le señale para el efecto. Los costos que se ocasionen por la inspección que lleve a cabo la Compañía, en ejercicio de la facultad acá establecida, serán asumidos, íntegramente por la Compañía. Esta estrategia busca fortalecer los acuerdos de nivel de servicio con aquellos proveedores (socios estratégicos) con los cuales se tiene dependencia, y cuyo bien o servicio hace parte de los insumos de los procesos críticos. El contenido de los Acuerdos de Nivel de Servicio debe ser claro, al tener acceso al acuerdo el lector “siempre” deberá poder contestar las siguientes preguntas: 3. Alternativas de respaldo de datos 3.1. Servidor Oracle Oracle trabaja en conjunto con Oracle Storage Cloud Service, encapsulando la comunicación por medio de Oracle Database Backup Service (ODCBM). este provee una integración a través de un Media Management Layer (MML). 32 Adicionalmente, esta integración asegura que todas las características extendidas a nivel de funcionalidad, como, por ejemplo: la compresión y cifrado de datos, puedan ser utilizadas transparentemente. Esta solución proporciona: 1. Soporte a desastres geolocalizados 2. Compresión a nivel de respaldos 3. Cifrado de respaldos 4. Paralelismo en los procesos de respaldo, si se encuentran habilitados por la versión de la base de datos. 5. Garantía de cifrado de datos hacia el sitio de respaldo 6. Copias de respaldo alternativas (Espejo – Mirroring-triple) 7. Tiempo efectivo de recuperación basado en el tamaño de la base de datos y el ancho de banda del canal de comunicación 8. Bajo costo de utilización de hardware. Costo por TB de almacenamiento requerido. El proceso de implementación de la solución de ODBS, implica cuatro pasos sencillos: ● Proceso de suscripción y activación del servicio de nube ● Instalación del módulo de RMAN ● Configuración de RMAN ● Realización de respaldo y recuperación de datos. 33 3.2. Datos de Hypervisor Una vez que el equipo de TI prioriza la configuración del hipervisor, lo segundo crucial es el aspecto de la copia de seguridad del hipervisor: los datos reales. El modelo para utilizar que se realizará es hacer instantáneas de respaldo; junto a una estrategia de automatizar la copia de seguridad para que suceda cuando se exige trabajo mínimo del hipervisor ya que, durante la copia de seguridad, el sistema funcionará a una velocidad más lenta. La automatización de la creación de respaldo se realizará deben estar alineado al plan estratégico de tecnología, a los requerimientos y los objetivos de servicio de la compañía. 3.3. Servidor Active Directory La lista de datos en los componentes, que deben de tener una copia son: ● Active Directory Domain Services ● Domain Controller System Registry ● Sysvol directory ● COM+ class registration database ● DNS zone information integrated with Active Directory ● System files and boot files ● Clúster service information ● Certificate services database 3.4. Se debe hacer una copia de seguridad de al menos un controlador de dominio en un dominio Se debe hacer una copia de seguridad del controlador de dominio. a la vez se deberá hacer una copia de seguridad del controlador de dominio que tiene instaladas las funciones FSMO (Operación de maestro único flexible). Si ha perdido todos los controladores de dominio, puede recuperar un controlador de dominio primario (que contiene roles FSMO) e implementar un nuevo controlador de dominio secundario, replicando los cambios del DC primario al DC secundario. 34 3.5. Realizar copias de seguridad de Active Directory regularmente Se debe hacer una copia de seguridad de su Active Directory regularmente con un intervalo que no exceda los 60 días. Los servicios de AD suponen que la antigüedad de la copia de seguridad de Active Directory no puede ser superior a la vida útil de los objetos de lápida de AD, que por defecto es de 60. A la vez se realizará una copia de seguridad del controlador de dominio de Active Directory todas las noches. 3.6. Utilizar un software que garantice la coherencia de los datos. Al igual que con cualquier otra base de datos, la base de datos de Active Directory debe respaldarse de manera que se garantice la coherencia de la base de datos. La consistencia se puede preservar mejor si realiza una copia de seguridad de los datos de AD DC cuando el servidor está apagado o cuando se utiliza el Servicio de instantáneas de volumen en una máquina en ejecución. Es posible que no sea una buena idea hacer una copia de seguridad del servidor de Active Directory en estado apagado si el servidor está funcionando en modo 24/7. 4. Monitoreo y evaluación SGCN/BC En esta fase se especifican los ejercicios que más ayuden a verificar la efectividad del Plan de Continuidad de Negocio. Por tal motivo se debe diseñar un Plan de Prueba para cada actividad crítica del BCP. Las pruebas y ejercicios deben de ser ejecutadas con la finalidad de cumplir los siguientes objetivos: ● Garantizar que la documentación prevista para ser usada durante eventos o situaciones de crisis sea validada por la práctica y la evaluación. ● Mantener vigente la documentación de Administración de la Continuidad de Negocio creada en las etapas del ciclo de vida del proceso de BCP. ● Asegurar que los planes se ajusten a los objetivos del negocio, mediante prácticas, auditorías y procesos de autoevaluación. 35 ● Cumplir con los requerimientos de los procesos clave del negocio (RTO y RPO). ● Familiarizar a los equipos con el proceso de Pruebas de BCP. ● Satisfacer los requerimientos legales y de auditoría interna. 4.1. Pruebas aplicables en la ejecución del SGCN / BCP: ✓ Prueba de escritorio: Esta prueba permite evaluar un plan sin necesidad de realizar la prueba fuera del edificio, la cual debe realizarse de manera de verificar la consistencia del plan con respecto a algún escenario de interrupción. Además, permite validar los datos de los planes. ✓ Prueba funcional: En esta prueba se evalúa la efectividad de los planes que integran el BCP, recreando los procesos de negocio y la participación de los usuarios desde un sitio alterno. ✓ Ejercicio Completo: Permite evaluar la continuidad de las operaciones para un escenario de desastre mayor en el cual se simulará un procesamiento desde el sitio alterno definido en la estrategia de recuperación. Este tipo de prueba permite validar todos los planes de contingencia de manera integrada. Una vez realizado el ejercicio o prueba, se deben documentar los resultados basados en los cuestionarios de revisión y bitácoras de los participantes. Para este proceso es necesario ordenar todas las evidencias recolectadas después de la prueba o ejercicio y definir planes de acción para administrar los problemas surgidos durante la prueba o ejercicio. 4.2. El Documentos que deben ser actualizados constantemente BCP contiene puntos relevantes que deben ser actualizados constantemente, debido a la naturaleza cambiante organizacional o la transformación en las directrices de la que la, algunos de ellos son: ✓ Alcance del Plan: Con el transcurso de los años, el alcance del BCP puede ampliarse, según el crecimiento de la organización. 36 ✓ Puntos del BCP alineados a las buenas prácticas: El programa de Continuidad de Negocio puede modificarse, dependiendo del código de buenas prácticas al cual está alineado, ya sea por cambio de versión o por cambio de un código a otro. ✓ Plan de Pruebas: Al inicio del año, se elabora el plan de pruebas anual del BCP, en el que se definen los ejercicios que se pretenden realizar, con el pasar de los meses es necesario verificar si será posible llevar a cabo dichos ejercicios, en caso contrario, se debe actualizar el Plan de Pruebas que se elaboró al inicio del año. ✓ Roles y responsabilidades: Para el BCP se tiene identificada cierta parte del personal de la organización que participa en éste, dependiendo del cambio de rol de las personas en la operación normal, debe actualizarse el BCP. Cada uno de los documentos que han sido mencionados, deben ser actualizados cada vez que se identifique un cambio, para que el Plan de Continuidad de Negocio sea eficiente, debe estar al día. 4.3. Actualización de los componentes según el PDCA Los planes de continuidad de negocio deben ser mantenidos a través de un ciclo de mejora continua [PDCA]. Cualquier cambio a nivel estratégico, operacional o técnico impactar en el negocio y por tanto en el plan de continuidad. Consecuentemente, la empresa debe emprender un proceso para mantener al día la capacidad, eficacia e idoneidad del Plan de Continuidad de Negocio. 37 Algunas propuestas en ese sentido son: ✓ Revisión periódica en busca de cambios en la estructura de la organización, en los productos/servicios que se desarrollan, en la plantilla, etc., los cuales pueden tener consecuencias en el Plan de Continuidad de Negocio (política, BIA, procedimientos de recuperación, etc.). ✓ Confirmación de que el Plan de Continuidad de Negocio es acorde y contempla los objetivos e intereses de las partes interesadas ✓ Adecuación de los planes de continuidad de negocio a requerimientos de socios, clientes, accionistas u otro tipo de requerimientos regulatorios. ✓ Revisión de los resultados de las pruebas realizadas y de que las mejoras identificadas en las mismas han sido aplicadas. ✓ Auditorías internas o externas de todos y cada uno de los componentes del Plan de Continuidad de Negocio. De esta forma, la organización puede disponer de ciertas garantías sobre la efectividad de su plan de continuidad de negocio. Finalmente, para asegurar el 38 mantenimiento del Plan de Continuidad de Negocio es recomendable el desarrollo de programas educativos que mezclen diferentes formas de comunicación y aprendizaje de forma que sea fácilmente asimilable por toda la organización. Por otro lado, y como medida general, se recomienda que los planes de continuidad de negocio, aparte de ser flexibles, sean testados al menos una vez al año a través situaciones ficticias de emergencia o contingencia. Dicha periodicidad depende de las necesidades que determine la organización y el entorno en el que opera. 5. Recomendaciones 5.1. Plan de pruebas Se debe considerar la fase de prueba, la cual consiste en contener las actividades más importantes que requieran comprobación y certeza en su funcionamiento. Lo idóneo es que éstas se ejecuten en un ambiente lo más parecido al ambiente de producción, en las cuales se pueda observar con veracidad como serían aplicadas en una verdadera emergencia; es importante que se respete la matriz RACI y que los roles establecidos cumplan su responsabilidad. Las pruebas deberán ejecutarse en el periodo que causen menos impacto o donde la operación normal sea mínima como los fines de semana o por horas de la madrugada, esto con el fin de que las afectaciones de la operación sean las mínimas, adicional deben comprender los elementos críticos y simular condiciones de proceso lo más parecidas a la normales de operación, aunque se realicen fuera de horas. Las pruebas deben incluir las siguientes tareas: ● Ejecución de todo el plan de pruebas ● Verificación del plan de pruebas una vez ejecutado. ● Evaluar el nivel de respuesta de los roles o personas responsables. ● Evaluar la coordinación entre los miembros del área de TI, proveedores y otros terceros. ● Identificar la capacidad de recuperar registros e información vital. 39 5.2. Entrenamiento y distribución del Plan El entrenamiento y distribución del Plan en la FNC es necesaria para que los involucrados tengan el conocimiento claro de cómo se desarrolla el plan (ISACA, 2012): ✓ Entrenamiento: La administración del Plan debe asegurar que todas las personas involucradas reciban entrenamiento sobre los procedimientos a seguir en caso de desastres. Además de entrenamiento teórico, se debe hacer que el personal participe en las pruebas y simulacros del Plan. ✓ Distribución: El Plan de continuidad contiene mucha información sensitiva, por lo que debe ser distribuido sólo a personas autorizadas. El Plan se dividirá en secciones las cuales se entregarán sobre la base de “necesita saber” solamente. ✓ Mejora Continua: Con base en las pruebas y experiencias reales, el plan deberá ser mejorado continuamente, aprendiendo de los errores cometidos. 40