LINEAMIENTOS DE MONITOREO Y CONTROL Bogotá D.C. Julio de 2016 LINEAMIENTOS DE MONITOREO Y CONTROL Proceso asociado: Tecnologías de Información y Comunicaciones Código: L - TI -02 Versión 02 TABLA DE CONTENIDO INTRODUCCIÓN------------------------------------------------------------------------------------------------------------------- 3 1. OBJETIVO -------------------------------------------------------------------------------------------------------------------- 3 1.1. Objetivos Específicos ------------------------------------------------------------------------------------------------ 3 2. 3. 4. 5. 6. 7. 8. ALCANCE -------------------------------------------------------------------------------------------------------------------- 3 TÉRMINOS Y DEFINICIONES ------------------------------------------------------------------------------------------ 4 MONITOREO Y CONTROL ---------------------------------------------------------------------------------------------- 7 4.1. Descripción de Roles ------------------------------------------------------------------------------------------------ 7 4.2. Matriz RACI ------------------------------------------------------------------------------------------------------------ 8 4.3. Políticas para el Monitoreo y Control ---------------------------------------------------------------------------- 9 4.4. Consideraciones Clave -------------------------------------------------------------------------------------------- 10 4.5. Reportes -------------------------------------------------------------------------------------------------------------- 10 MARCO LEGAL ----------------------------------------------------------------------------------------------------------- 11 REQUISITOS TÉCNICOS ---------------------------------------------------------------------------------------------- 11 DOCUMENTOS ASOCIADOS ---------------------------------------------------------------------------------------- 11 RESPONSABLE DEL DOCUMENTO ------------------------------------------------------------------------------- 11 2 LINEAMIENTOS DE MONITOREO Y CONTROL Proceso asociado: Tecnologías de Información y Comunicaciones Código: L - TI -02 Versión 02 INTRODUCCIÓN En la actualidad, los negocios requieren que los servicios de TICs (Tecnología de Información y Comunicaciones) sean proporcionados con calidad, balanceados en costo, para ser eficientes y efectivos, y soportar los objetivos de negocio. En consecuencia, las organizaciones tienen que administrar sus servicios y su infraestructura de TI considerando las mejores prácticas de la industria de TI. El Área de Tecnología y Sistemas de Información, para alinearse a los objetivos de este proyecto, necesita desarrollar bases sólidas para administrar adecuadamente los servicios de TI, controlando su infraestructura y servicios que proporciona a sus clientes, los cuales son soporte fundamental de los procesos sustanciales de la organización. El Lineamiento de Monitoreo y Control es una función, que forma parte de la etapa de operación del ciclo de vida de servicios de ITIL® y el Marco Operativo de Microsoft (MOF). Esta función contempla observar, en tiempo real, las condiciones de la infraestructura del ambiente productivo y alertar sobre estas condiciones, accionando sobre los eventos que sucedan. El Monitoreo y Control está involucrado con toda la infraestructura relacionada con los servicios de TIC´s que ofrece una organización de TI. 1. OBJETIVO El presente lineamiento tiene como objetivo establecer directrices de obligatorio cumplimiento, alineado a las mejores prácticas de ITIL® y el Marco de Trabajo Operativo de Microsoft (MOF), en el diseño e implementación del Monitoreo y Control. 1.1. Objetivos Específicos Los objetivos específicos del Lineamiento de Monitoreo y Control del Servicio son: Supervisar permanentemente los servicios de TICs Agilidad en el diagnóstico y solución de fallas. Tomar acciones para minimizar el impacto de los incidentes de los servicios y eventos del sistema. Mantener la Información de rendimiento y capacidad de los elementos de la infraestructura tecnológica. Mantener el registro de fallas automáticas. Realizar la evaluación de impacto de incidencias o fallas. Disponer de información de indisponibilidad y fallos. Realizar la simulación y análisis de capacidad para ampliar servicios de tecnología. Realizar mejores prácticas para el monitoreo de servidores y elementos de red. Evaluar de riesgos para la operación. Ejecutar Planes de contingencia para la infraestructura y servicios Proveer datos de componentes o tendencias de servicios que puedan ser utilizadas para optimizar el desempeño de los servicios de TICs 2. ALCANCE El alcance del Lineamiento de Monitoreo y Control aplica a los servicios definidos en el Catálogo de Servicios de Tecnología de Información y Comunicaciones D-TI-01 de Tecnología de Información y Comunicaciones. 3 LINEAMIENTOS DE MONITOREO Y CONTROL Proceso asociado: Tecnologías de Información y Comunicaciones Código: L - TI -02 Versión 02 También abarca los servicios internos o de apoyo, que están descritos en el Catálogo de Servicios Técnico. 3. TÉRMINOS Y DEFINICIONES Activo: Componente del proceso de negocios. Los activos pueden incluir, gente, edificios, sistemas computacionales, redes, registros en papel, faxes, etc. Acuerdo de Niveles de Servicio (Service Level Agreement - SLA): Acuerdo escrito entre el proveedor de servicios y el cliente sobre los niveles de servicio acordados entre ambas partes. Administración de Niveles de Servicio (Service Level Management - SLM): El proceso de definir, acordar, documentar y manejar los niveles de servicio del cliente de TI, que son requeridos y justificados en costo. Ambiente: Colección de hardware, software, redes de comunicación y procedimientos que trabajan de forma conjunta para proveer un cierto tipo de servicios computacionales. Puede haber uno o más tipos de ambientes en plataformas físicas, por ejemplo, pruebas, producción o desarrollo. Análisis de Impacto: La identificación de los procesos críticos de negocio, daño potencial y pérdida que pueden causarle al negocio, resultantes de una interrupción en las operaciones de los procesos. El análisis de impacto al negocio identifica: La forma de tomar la pérdida o daño. Qué probabilidad de escalar se tiene, dentro del tiempo que le sigue al incidente. Staff mínimo, facilidades y servicios necesarios para permitirle a los procesos de negocio continuar con su operación mínima aceptable. El tiempo dentro del cual los servicios deben ser recuperados. El tiempo dentro del cual la recuperación total del negocio es alcanzada, si es identificada. Análisis de Riesgo: Identificar y evaluar el nivel de riesgo, tomando en cuenta los activos expuestos o amenazados. Calendario de Cambios Programados (Forward Scheduled Changes - FCS): Calendario que muestra a detalle todos los cambios aprobados para su implementación con sus respectivas fechas para ello. Deberá realizarse un acuerdo entre el cliente y el negocio, Administración de los Niveles de Servicio, Mesa de Servicio o Mesa de Ayuda y Manejo o Administración de la Disponibilidad. Una vez realizado el acuerdo, la mesa de servicio deberá comunicar a la comunidad usuaria cuando no se podrá disponer de los servicios que estén relacionados con los cambios planeados, a través de los medios más efectivos dentro de la organización. Calidad del Servicio: Nivel de servicio contratado o acordado entre el proveedor de servicios y el cliente. Cambio: Modificación adicional aprobada sobre la línea base de: hardware, red, software, aplicación, ambiente, sistema, o documentación asociada. Cambios normales: Son aquellas solicitudes de cambio que son requeridas por las unidades de negocio o internamente por la organización de TI para mejorar un servicio. Este tipo de cambios se clasifican también como cambios planeados, ya que se tramitan en el proceso de administración de cambios con todos sus pasos, entre otros el de análisis y evaluación de riesgos, impacto y recursos necesarios para realizar el cambio; puede incluso participar el Consejo de Control de Cambios (Change Advisory Board - CAB). 4 LINEAMIENTOS DE MONITOREO Y CONTROL Proceso asociado: Tecnologías de Información y Comunicaciones Código: L - TI -02 Versión 02 Cambios urgentes: Son solicitudes de cambio, que por su naturaleza pueden provenir de un incidente con un alto impacto o de un problema que afecte gravemente los niveles de servicio comprometido, y cuya única solución sea a través de un cambio. Catálogo de Servicios: Estatutos escritos de los servicios de TI, usuarios beneficiados, horarios de atención, niveles de incumplimiento y opciones. Cierre: Cuando un cliente está satisfecho por la resolución del incidente que levantó. Cliente: Receptor de un servicio, normalmente servicio al cliente es responsable del costo del servicio, ya sea de manera directa a través de la transferencia de costos o indirectamente en términos de las necesidades del negocio. Comité de Aprobación de Cambios (CAB) (Change Advisory Board - CAB): Grupo de personas que provee de consejos expertos en el Manejo de Cambios en la implementación de ellos. Este consejo debe contar con un representante de cada una de las áreas de TI y de las unidades de negocio. Al final del análisis, el CAB autoriza o rechaza la RFC en curso. Control de Cambio: Procedimiento para asegurar que todos los cambios están controlados, incluyendo el análisis, toma de decisiones, sujeción, aprobación, implementación y post-implementación del cambio. Control de Proceso: Proceso de planeación y regulación con el objetivo de ejecutar el proceso de una manera efectiva y eficiente. Disponibilidad: Capacidad de un componente o servicio para realizar su función requerida durante un periodo de tiempo. Usualmente es expresado por una relación de disponibilidad, por ejemplo: La proporción de tiempo que el servicio está disponible para uso del servicio por el usuario, dentro del horario de servicio acordado. Documentación del Cambio: Requerimiento de Cambio (RFC), forma de control, orden y registro del cambio. Elementos de Configuración (Configuration Item - CI): Componente de la infraestructura o elemento, tal como el requerimiento de cambio asociado a la infraestructura que es o estará bajo control de la Administración de la Configuración. Un CI pueden variar mucho en complejidad, tamaño y tipo, desde un sistema completo incluyendo todo el hardware, software y documentación, hasta un solo módulo o un pequeño componente de hardware. Factores Críticos de Éxito (FCE): Un medidor del éxito o madurez de un proyecto o proceso. Puede ser un estado, entregable o meta. Un ejemplo podría ser: “La elaboración de toda la estrategia de tecnología” Incidente: Cualquier evento que no forma parte usual o normal de la operación diaria del proceso de negocio, que causa o puede causar una interrupción o reducción en la calidad del servicio. Infraestructura de TI: La suma de los activos de la organización de TI como; hardware, software, facilidades de telecomunicación de datos, procedimientos y documentación. Interfaz: Interacción física o funcional en los límites entre elementos de la configuración. ISO9001: Conjunto de estándares internacionales aceptados, referentes a los sistemas de administración de la calidad. 5 LINEAMIENTOS DE MONITOREO Y CONTROL Proceso asociado: Tecnologías de Información y Comunicaciones Código: L - TI -02 Versión 02 ITIL: La Librería de Infraestructura de TI de la Oficina Gubernamental de Comercio de Inglaterra (OGC ITIL), Es un conjunto de guías para la administración y provisión de los servicios operativos de TI. Mesa de Servicios: Punto único de contacto dentro de la organización de TI, para los usuarios. Métrica: Elemento medible de un proceso o una función. Nivel de Servicio: Expresión de un aspecto del servicio, en términos cuantificables y definitivos. Operaciones: Todas las actividades y medidas para habilitar y/o mantener el uso de la infraestructura de TI. Prioridad: Secuencia con la que un problema o incidente tiene que ser resuelto, basado en impacto y urgencia. Problema: Causa principal desconocida de uno o varios incidentes. Proceso: Serie de acciones, actividades, cambios, etc. conectadas. Realizadas por agentes que tienen el propósito de satisfacer o lograr un objetivo. Proceso de Negocios: Grupo de actividades de negocio comprometidas por una organización, persiguiendo un fin u objetivo común Los típicos procesos de negocios incluyen recepción de órdenes, servicios de mercadotecnia., venta de productos, servicios de entrega, distribución de productos, facturación por servicios, contabilización por dinero recibido. Un proceso de negocio normalmente depende del soporte de varias funciones de negocio, por ejemplo: personal de Tecnología de Información, alojamiento, estos muy rara vez operan aislados, siempre hay interdependencia entre ellos. Proveedor: Organización encargada de proveer los servicios de TI. Recursos: Ayudan a proveer los requerimientos de los clientes de TI. Los recursos son usualmente computadoras y equipo relacionado, software, facilidades (edificio, sites, etc.) y gente. Requerimiento de Servicios: Cada servicio que no sea una falla, provisto por la infraestructura de TI. Servicio de TI: Conjunto de facilidades de TI y de no TI, proveídos por el servidor de dichos servicios, que satisface con una o varias necesidades de los clientes y que el cliente lo percibe como un todo. Sistema: Compuesto integral que consiste de uno o más procesos, hardware, software, facilidades y gente, que tiene la capacidad de satisfacer una necesidad u objetivo. Solicitud de Cambios (RFC): Es un formato electrónico o en papel, que contiene un conjunto de campos para llenar cierta información, que ya en forma integral crea el perfil de un requerimiento de cambios, entre otros campos contiene también: Filtrado, Evaluación, Análisis de Riesgos e Impacto y Consejo de Control de Cambios, éste último a nivel de autorización. Solución o Soporte Remoto: Incidente o problema solucionado sin la necesidad de presencia física de un elemento del staff de soporte. Note: Esta modalidad minimiza el tiempo de falla, por lo que ayuda a minimizar el costo efectivo de falla. 6 LINEAMIENTOS DE MONITOREO Y CONTROL Proceso asociado: Tecnologías de Información y Comunicaciones Código: L - TI -02 Versión 02 Tiempo de Caída: Periodo de tiempo que un servicio o dispositivo está fuera de servicio, dentro de los tiempos de servicio acordados. Unidad de Negocio: Segmento de una entidad de negocio por el cual los ingresos son recibidos y los egresos son controlados. Los egresos e ingresos son utilizados para evaluar el desempeño por segmento. Usuario: Persona que utiliza los servicios diarios. 4. MONITOREO Y CONTROL Monitoreo y Control de los Servicios es una observación en tiempo real y alerta de las condiciones (características que indican éxito o fracaso) de salud en un ambiente de TICs. Ayuda a asegurar que los servicios implementados son operados, mantenidos y soportados alineados con parámetros de los acuerdos de niveles de servicio negociados entre el negocio y TI. Esta función describe que es lo requerido para implementar el Monitoreo y Control de los Servicios. Los componentes de este lineamiento son: Establecer la función de monitoreo Entender la naturaleza de un servicio de TIC nuevo o existente Entender los requerimientos de las herramientas para un exitoso monitoreo de servicios Asegurar que toda la información relevante del monitoreo del servicio es distribuida a la gente apropiada Generar información requerida por otras funciones y procesos Mejorar la calidad de la información del servicio La importancia de un efectivo monitoreo de servicio es no exagerar, ya que si un servicio no puede ser monitoreado, no puede ser medido, y no puede ser administrado. La descripción de cada una de las actividades, se puede encontrar en los documentos: Procedimiento de Monitoreo y Control de Servicios de TICs P-TI-08 y Procedimiento de Monitoreo Continuo P-TI-10. 4.1. Descripción de Roles A continuación se presenta la descripción de los principales roles de Monitoreo y Control. Por cada uno de los roles se proporciona la siguiente información: Objetivo: Propósito general del rol descrito Responsabilidades: Descripción de las actividades principales del rol Competencias: Descripción del conocimiento técnico o profesional necesario para desempeñar el rol descrito Habilidades: Descripción de cualidades y destrezas que complementan la competencia del rol descrito. Administrador de Monitoreo y Control 1. Asegurar que se cumpla el proceso, políticas y procedimientos de Monitoreo y Control para Objetivo satisfacer los servicios de TIC´s y las necesidades de la Presidencia de la República. Responsable por la ejecución de las actividades Asegurar que los sistemas estén correctamente monitoreados Responsabilidades Proporcionar la experiencia en que monitorear y que no monitorear Definición de servicios a monitorear Preparación de un modelo de salud para los componentes del servicio (Mejora continua) 7 LINEAMIENTOS DE MONITOREO Y CONTROL Proceso asociado: Tecnologías de Información y Comunicaciones Competencias Habilidades Código: L - TI -02 Versión 02 Ingeniería en Sistemas o carrera afín y experiencia en la operación de servicios de TI Conocimiento de las herramientas para la Monitoreo y Control Fundamentos de ITIL Habilidades Administrativas y Técnicas de los servicios Capacidad de trabajo en equipo Conocimiento y experiencia en la infraestructura de la organización Conocimiento en la organización Especialista de Monitoreo y Control 1. Apoyar al Administrador de Monitoreo y Control para la ejecución de las actividades de este Objetivo lineamiento. Responsabilidades Monitorear la infraestructura que integra los servicios de TI Ingeniería en Sistemas o carrera afín Competencias Entrenamiento en Fundamentos de ITIL Inglés 50% (altamente recomendable) Capacidad de trabajo en equipo Habilidades Conocimiento de la infraestructura de la organización Conocimiento en la organización 4.2. Matriz RACI Una tarea muy importante es realizar un mapeo de los roles y las responsabilidades, así como su intervención en cada una de las actividades, con motivo de conocer quién toma parte en cada actividad y con qué nivel de participación. Este mapeo se lleva a cabo con una matriz llamada RACI, donde cada letra que forma su nombre es una responsabilidad específica en la actividad. A continuación se muestra la nomenclatura a utilizar dentro de la tabla RACI definida para el lineamiento, de Monitoreo y Control. RESPONSABILIDAD DESCRIPCIÓN R Responsible Responsable de ejecutar la actividad. A Accountable Encargado del cumplimiento y la calidad en la ejecución de la actividad. C I Consulted Aporta conocimiento y/o información para que el responsable ejecute la actividad. Informed Rol que debe ser informado una vez que la actividad ha finalizado, La tabla RACI definida para el lineamiento, de Monitoreo y Control. Dicha está conformada por los siguientes rubros: No: Número correspondiente a la secuencia de actividades del lineamiento, de Monitoreo y Control Actividad: Nombre de la actividad Roles: Nombre de los roles participantes del Monitoreo y Control 8 LINEAMIENTOS DE MONITOREO Y CONTROL R A R A R A R R A A R A R R R A A A C C R A C C R R R R R A A A A A C C R A R A/I I C R A C/I I Administración de Cambios Administración Configuraciones Administración de Incidentes R R Administración de Niveles de Servicio A A Administración de Liberaciones R R de Administrador de Monitoreo y Control Dueño del servicio Seleccionar servicio a monitorear Verificar niveles de servicio relacionados Identificar recursos del servicio a ser monitoreados Recolectar información de buenas prácticas de fabricantes de los recursos Identificar herramientas de monitoreo a utilizar ¿Monitoreo por primera vez? Monitoreo continuo Almacenar información de monitoreo y líneas base Definir periodo a monitorear Ejecutar monitoreo Analizar información de monitoreo Definir y configurar umbrales de operación Definir línea base ¿Evento? Filtrar eventos Identificar acciones requeridas Ejecutar acción ¿Requiere modificaciones en el monitoreo? Revisar RFC Configurar herramientas de monitoreo y parámetros en base al RFC Especialistas de monitoreo y control Actividad Versión 02 Administración de Problemas Código: L - TI -02 Proceso asociado: Tecnologías de Información y Comunicaciones C C C I I I 4.3. Políticas para el Monitoreo y Control Las políticas del Monitoreo y Control se han creado con el objetivo de: Dar gobierno al Monitoreo y Control Cumplir con los requerimientos de Área de Tecnología y Sistemas de Información 9 LINEAMIENTOS DE MONITOREO Y CONTROL Proceso asociado: Tecnologías de Información y Comunicaciones Código: L - TI -02 Versión 02 Cumplir con las mejores prácticas de ITIL® A continuación las políticas del Monitoreo y Control: 1. El Monitoreo y control debe tener un único Administrador, el cual es el responsable de garantizar su óptimo desempeño. 2. Cada Dueño de Servicio debe determinar los eventos que deben ser monitoreados para determinar el estado del servicio. 3. El diseño del servicio debe contemplar las herramientas necesarias para el monitoreo del mismo. 4. Todo evento debe contener las acciones automáticas o sugeridas al operador para la solución al primer nivel. Estas acciones deben estar documentadas en los planes de capacidad y disponibilidad. 5. El histórico de la información del monitoreo será entregada a cada uno de los dueños de servicio, para la evaluación de disponibilidad y capacidad. 6. La repetición de eventos solucionados debe registrar un problema para el análisis proactivo del mismo. 7. Si se crea un incidente, problema o cambio a partir de un(os) evento(s) se debe relacionar el número de registro respectivo. 8. El dueño del Monitoreo y Control con los dueños de otros Administradores de Servicios se reúne periódicamente para analizar los eventos, incidentes y problemas que determinen planes de mejora. 9. El administrador de Monitoreo y Control debe revisar dos veces al año el lineamiento. 10. El administrador del servicio debe estudiar los incidentes no detectados para definir nuevos eventos que permitan prevenir incidentes a futuro. 11. Toda modificación en la configuración del monitoreo (Umbrales, alarmas, herramientas y líneas base) debe ser autorizada por el Administración de Cambios. 12. Las herramientas de monitoreo utilizadas en la Presidencia de la República deben ser autorizadas por el dueño del Monitoreo y Control. 13. La operación de las herramientas de Monitoreo y Control no deberán afectar la prestación del servicio. 14. Las políticas específicas de las herramientas de monitoreo, documentadas en las guías o manuales operativos de Presidencia de la República, deben cumplirse como parte de esta política general de Monitoreo y Control. 4.4. Consideraciones Clave Las Consideraciones Clave del Monitoreo y Control (o Factores Críticos de Éxito, según CobIT) son las condiciones, capacidades y actitudes fundamentales para el éxito de la implementación y operación de la disciplina en el ambiente productivo de la organización. A continuación se presentan las consideraciones claves para el Monitoreo y Control: Contar con herramientas que realicen el monitoreo, las cuales proporcionen la información relevante para el servicio y los lineamientos de Administración de Servicios. Por cada servicio realizar un detalle de los recursos a monitorear. Comunicación entre áreas internas, para conocer los eventos planeados, y tomarlos en cuenta en la correlación de eventos. Definir el tipo de herramientas de monitoreo que se tienen, para determinar tiempos de monitoreo, y no llegar a afectar la operación del servicio. 4.5. Reportes Los reportes son herramientas útiles para el administrador y el área táctica de la organización, ya que muestran el comportamiento durante un periodo determinado. La información que proveen facilita la evaluación de la eficiencia y 10 LINEAMIENTOS DE MONITOREO Y CONTROL Proceso asociado: Tecnologías de Información y Comunicaciones Código: L - TI -02 Versión 02 efectividad. A continuación se presenta una tabla que muestra los reportes definidos para el Monitoreo y Control. Dicha tabla está conformada por los siguientes rubros: Nombre: Especifica el nombre del reporte Métrica o campos que incluye: Listado de métricas y campos incluidos en el reporte Frecuencia del reporte: Lapso de tiempo en el que será generado el reporte Rol a quien se dirige: Rol al cual se dirige el reporte generado Fuente de información: Repositorio del cual se obtendrán las métricas o campos que incluye el reporte Nombre del reporte Métrica o campos que incluye Frecuencia del reporte Mensual Rol a Quien se Dirige Dueños de servicios Administrador de Monitoreo y Control Fuente de Información Herramientas de monitoreo y control Reporte de eventos por Contiene la cantidad de Servicio eventos y alarmas generadas durante el periodo por servicio Mensual Dueños de servicios Administrador de Monitoreo y Control Herramientas de monitoreo y control Numero de cambios realizador por eventos presentados Mensual Dueños de servicios Administrador de Monitoreo y Control Herramientas de monitoreo y control Top 10 de alarmas y Este top contiene los 10 eventos eventos más repetidos durante el periodo, con el fin de realizar un análisis de tendencias de los eventos. Identificar el número de cambios realizados por eventos presentados durante el monitoreo 5. MARCO LEGAL Se puede consultar en el aplicativo SIGEPRE – Mapa de procesos – Tecnología de Información y Comunicaciones – Normograma o en el campo de documentos asociados cuando se consulta el documento. 6. REQUISITOS TÉCNICOS ITIL-Guía de Mejores Prácticas Marco de Trabajo Operativo de Microsoft (MOF) 7. DOCUMENTOS ASOCIADOS Se puede consultar en el aplicativo SIGEPRE – Mapa de procesos – Documentos y formatos o en el campo de documentos asociados cuando se consulta el documento. 8. RESPONSABLE DEL DOCUMENTO Jefe Área de Tecnología y Sistemas de Información 11