República Bolivariana de Venezuela Universidad Venezolana de los Hidrocarburos Maestría de Gestión de Datos en Exploración y Producción Arquitectura Empresarial en Exploración y Producción INVESTIGACION CONCEPTUAL. GESTION DEL DATO EN EXPLORACION Y PRODUCCION DE HIDROCARBUROS Prof. MSc. Cuervo, José Discente: Engelbert Moreno 11.773.602 Marzo de 2019 1-.DATOS LEGADOS Un dato legado o heredado es aquel que ha quedado anticuado pero que sigue siendo utilizado por el usuario o los sistemas de bases de datos (generalmente en una organización o empresa) y no se quiere o no se puede reemplazar o actualizar de forma sencilla. Diversos factores internos y externos, económicos, de mercado, legales, administrativos o políticas de organización, exigen cambios continuos en el negocio. Estos cambios generan o modifican los requerimientos del sistema de información, por lo que éste va sufriendo cambios conforme cambian los negocios. Por esta razón, los sistemas heredados incorporan un gran número de actualizaciones hechas a lo largo de su vida útil. Muchas personas diferentes pueden haber estado involucradas en la realización de estas modificaciones a lo largo del tiempo, y es inusual para cualquier usuario o administrador del sistema tener un conocimiento completo del mismo, sobre todo cuando éste tiene una cierta envergadura, esto sin tener en cuenta la inversión horas/hombre requerida para capacitar a los trabajadores del área de sistemas para familiarizarlos con el mismo y sean capaces de mantenerlo. 2-.GOLDEN RECORDS (Registros de Oro) El Golden Record es el corazón de la gestión de datos maestros. Es un registro de datos maestros uniendo todos los atributos relevantes de todas las fuentes de datos disponibles. En otras palabras, es un super conjunto de todos los atributos de todas las fuentes de datos. Un Golden Record se administra en un repositorio central donde “data cleansing” (limpieza de datos) y “data masking” (enmascaramiento de datos) garantizan su calidad. La resolución de identidades organiza registros similares de diferentes fuentes en un solo golden record. Los duplicados se evitan y el nivel de calidad de los datos se eleva. Este registro de datos que todo lo abarca también contiene enlaces a los registros de datos maestros en las diferentes fuentes de datos, desde donde se originan los atributos. Esto significa que cuando se realiza una actualización de un atributo en una fuente de datos en particular, la misma actualización se realiza en todas las demás fuentes pertinentes. Todos los datos disponibles se mantienen constantes en todos los sitios, y como no tienen que ser movidos físicamente, no se almacenan de forma redundante. 3-.DATOS MAESTROS Y DE REFERENCIA Datos Maestros: Son conjuntos de datos clave que representan los elementos o actores más importantes de una organización. Estos datos sirven para: Proporcionar un contexto confiable en los procesos que verifican la calidad de las operaciones transaccionales. También se usan como parte de los contenidos de los informes analíticos para la toma de decisiones. Esta definición quiere decir que los datos maestros (DM) deben contener registros únicos y vigentes para proporcionar un contexto confiable a los procesos de la organización y por lo tanto realizar la toma de decisiones con información correcta. Con base en el DAMA los datos maestros se agrupan en: personas, cosas, lugares y conceptos. Las personas pueden ser clientes, empleados y vendedores; puede haber productos, almacenes u otros activos; los lugares hacen referencia a oficinas y divisiones geográficas; y los conceptos se refieren a contratos, garantías o licencias. Datos de Referencia: Son las entidades que representan listas de valores válidos para un dominio del negocio. Su definición puede realizarse al interior o de forma externa cuando se emplean fuentes de proveedores ajenos a las organizaciones Con base en el DAMA estos valores forman un conjunto acotado, a este conjunto se le llama dominio de valores. Las reglas de negocio son las que determinan el dominio de valores válidos para conformar a las entidades de referencia. La importancia de los datos de referencia (DR) radica en que sin un significado de los códigos del negocio la relación con otras entidades sería difícil de comprender. Ejemplos de estos datos pueden ser: Códigos únicos Vocabularios o términos del negocio 4-.ACUERDOS DE NIVELES DE SERVICIO El Acuerdo de Nivel de Servicio (SLA en sus siglas en inglés) es un documento firmado entre una un proveedor de servicios y sus clientes internos o externos que documenta qué servicios proporcionará el proveedor y define los estándares de servicio que el proveedor está obligado a cumplir. Esto puede hacerse en muchos ámbitos, especialmente en la parte operacional de las empresas, y la logística es de los apartados en los que resulta más habitual ver este tipo de acuerdos. 5-.MODELO DE DATOS Es una serie de conceptos que puede utilizarse para describir un conjunto de datos y las operaciones para manipularlos. Hay tres tipos de modelos de datos básicos: los modelos conceptuales, los modelos físicos y los modelos lógicos. Los modelos conceptuales se utilizan para representar la realidad a un alto nivel de abstracción. El modelo de datos físicos representa cómo se construirá el modelo en la base de datos. Un modelo de datos lógicos describe los datos con el mayor detalle posible, independientemente de cómo se implementarán físicamente en la base de datos. 6-.MODELADO DE DATOS El modelado de datos es el proceso de documentar un diseño de sistema de software complejo como un diagrama de fácil comprensión, usando texto y símbolos para representar la forma en que los datos necesitan fluir. El diagrama se puede utilizar como un mapa para la construcción de un nuevo software o para la reingeniería de una aplicación antigua. Tradicionalmente, los modelos de datos se han construido durante las fases de análisis y diseño de un proyecto, para asegurar que los requisitos para una nueva aplicación se entienden completamente. 7-ARQUITECTURA DE DATOS Es el conjunto de especificaciones que definen los requisitos estratégicos de los datos. Intenta describir la estructura, tanto física como lógica, que tienen los datos dentro de una organización, es decir, cómo están interrelacionados. La base teórica sobre la que se estructura es el Framework de Zachman, que explica lo que hay que tener en cuenta para describir correctamente la arquitectura de datos de una empresa y que establece que para que un dato quede bien definido han de cubrirse las siguientes áreas: Describir. Definir las acciones. Especificar qué componentes intervienen. Identificar. Seleccionar. Al final, lo que hace esta función es describir los datos desde todos los puntos de vista, es decir, actúa como un mapa que representa cómo y dónde están localizados los datos en la empresa desde muchas perspectivas diferentes, aportando también información acerca del ciclo de vida del dato, su recorrido, etc. 8-.DIFEFERNCIA ENTRE ARQUITECTURA DE DATOS Y ARQUITECTURA DE TECNOLOGIA DE DATOS Arquitectura De Tecnologías De La Información: Se refiere al estudio, análisis y organización de los espacios informativos, así como la selección y presentación de los datos en sistemas interactivos y no interactivos. El fin es promover la buena "usabilidad" y ubicación en buscadores de dichos espacios, que pueden ser sitios web, intranets, comunidades en línea, entre otros. La principal diferencia es que la Arquitectura de Datos describe la estructura de los datos físicos y lógicos de la organización y sus modelos de gestión, en cambio la Arquitectura de Tecnología de Datos describe la estructura de hardware, software y comunicaciones requeridas para dar soporte a la implantación de los sistemas de información descrita en la Arquitectura de Datos. 9-.CICLO DE VIDA DEL DATO Es una práctica basada en políticas que se encarga del flujo de los datos de los sistemas de información a través de su ciclo de vida: desde la creación y el almacenamiento inicial, hasta el momento cuando se convierte en obsoleto y es eliminado. La gestión del ciclo de vida del dato se enfoca en asegurar el cubrimiento del enmascaramiento, reducción, archivado, y generación (para prueba) de los datos en la institución, soportando el nivel de autoservicio comprometido. Esta gestión es una práctica basada en políticas que se encarga del flujo de los datos de los sistemas de información a través de su ciclo de vida: desde la creación y el almacenamiento inicial, hasta el momento cuando se convierte en obsoleto y es eliminado. Adicionalmente, el ciclo de vida del dato es uno de los ámbitos principales del gobierno del dato. 10-.GOBIERNO DE DATOS La gobernabilidad de los datos consiste en la gestión de éstos, en pro de los objetivos empresariales, y representa una convergencia de la calidad de datos, gestión, políticas, gestión de procesos de negocio y gestión de riesgos, que comprende el tratamiento de los datos de una organización. Es el ejercicio de autoridad, control y toma de decisiones compartida (planificación, vigilancia y aplicación) sobre la gestión de los activos de datos. Esto supone que la organización debe considerar el dato como un activo, lo que tiene un efecto de gran calado en su estrategia. El gobierno del dato establece un marco de referencia, necesario para la maximización del valor de la información disponible de forma transversal en toda la organización a través de la definición de políticas, procedimientos y roles que faciliten la gestión efectiva del ciclo de vida del dato. 11-.ENTIDAD Las entidades representan cosas u objetos (ya sean reales o abstractos), que se diferencian claramente entre sí. Algunos ejemplos de entidad son una sola persona, un solo producto o una sola organización. Tipo de entidad Persona, organización, tipo de objeto o concepto sobre los que se almacena información. Describe el tipo de la información que se está controlando. Normalmente un tipo de entidad corresponde a una o varias tablas relacionadas en la base de datos. 12-.ATRIBUTOS Los atributos definen o identifican las características de entidad (es el contenido de esta entidad). Cada entidad contiene distintos atributos, que dan información sobre esta entidad. Estos atributos pueden ser de distintos tipos (numéricos, texto, fecha...). 13-..DIFERENCIA ENTRE ESTANDAR, MEJOR PRÁCTICA Y MARCO DE REFERENCIA Un estándar es un documento que contiene un conjunto de especificaciones técnicas de aplicación voluntaria, que ha sido construido a través de consenso y que refleja la experiencia y las mejores prácticas en un área en particular. Mejores prácticas: Conjunto de acciones que han sido implementadas con éxito en varias organizaciones, siguiendo principios y procedimientos adecuados. Las Mejores prácticas son un conjunto de acciones que han sido implementadas con éxito en varias organizaciones, siguiendo principios y procedimientos adecuados. El Marco de Referencia es un conjunto de acciones y métodos que se establecen dentro de las áreas de tecnologías de la información regidas por la alta dirección y a si mismo tiene la capacidad para ayudar a la toma de decisiones, además facilita el desarrollo de nuevas estrategias para la organización que puedan dar resultados positivos tanto internos como externos en la organización. El Marco establece la estructura conceptual, define lineamientos, incorpora mejores prácticas, estándares y traza una ruta de implementación para lograr una administración más eficiente, coordinada y transparente, a través del fortalecimiento de la gestión de las Tecnologías de la Información. El propósito final de este Marco es habilitar la estrategia de gobierno en línea. En síntesis, podemos decir que el Marco de referencia incluye una base de conocimiento para que cada institución adopte las mejores prácticas de TI y estructure su Arquitectura Empresarial, además para que, a partir de esta última, realice una evaluación de sus tecnologías de la información respecto a su estrategia, modelo operativo y modelo de gestión, teniendo en cuenta sus criterios y objetivos particulares. Para cada dominio existen instrumentos para implementarlos, entre ellos: Guías, Estándares, Mejores prácticas y Herramientas o soluciones. La implementación del marco de referencia debe ser gradual y depende del avance o estado en el que se encuentra la institución. Como punto de partida para la implementación, la institución debe realizar un diagnóstico de cómo se encuentra actualmente con relación al cumplimiento de los lineamientos del Marco de Referencia y a partir de este, iniciar un proceso de Arquitectura Empresarial que le permita cumplir con los lineamientos. 14-SOLUCIONES DE DATOS Son sistemas que permiten optimizar el tiempo con los recursos disponibles al hacer posible la extracción, modificación, almacenamiento y selección de la información en las bases de datos. 15-.REPLICACIÓN CONTROLADA DE DATOS Es también conocida como la replicación basada en arreglos de discos. Fue una de las primeras soluciones que se hicieron disponibles y es suministrada por grandes empresas como HP, IBM, entre otros. Una implementación de este tipo implica la utilización de varios subsistemas o arreglos de discos de almacenamiento interconectado a través de una tubería de datos o pipe. Por esta razón, es una solución que requiere la utilización de recursos de almacenamiento homogéneos, pudiéndose esto traducir en costos más elevados a los de otras soluciones 16-.REGLAS DE NEGOCIO Una regla de negocio es una condición que se debe satisfacer cuando se realiza una actividad de negocio. Una regla puede imponer una política de negocio, tomar una decisión o inferir nuevos datos de datos existentes. Business Rules, por su descripción en inglés) describe las políticas, normas, operaciones, definiciones y restricciones presentes en una organización y que son de vital importancia para alcanzar los objetivos misionales. Características: Las reglas de negocio deben ser: Declarativas. Atómicas. Construidas de manera independiente y distinta. Expresadas en lenguaje natural. Orientadas al negocio. Se deben expresar de manera que pueda ser validada su exactitud por el personal conocedor del negocio. Se deben expresar de manera que se pueda verificar recíprocamente su coherencia. Las lógicas formales, como la lógica de predicados, son fundamentales para la expresión formal de reglas en términos de negocio, así como para las tecnologías que implementan dichas reglas. 17-.REGLAS DE CONCORDANCIA La concordancia se refiere a la correspondencia de variaciones o flexiones gramaticales que debe haber entre dos o más palabras que forman parte de una misma oración o frase. La regla general es que el sujeto y el verbo concuerden en número y persona; el sustantivo y el adjetivo en número y género; el sustantivo y el artículo en número y género. 18-.HERRAMIENTAS ETL Extract, Transform and Load (Extraer, transformar y cargar por su traducción al español) es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio. Son herramientas que aunque pueden variar en sus bases, el proceso en el cual trabajan sigue siendo el mismo: 1. Extraer: Es la parte inicial y como lo dice en su nombre, es extraer tal cual los datos que se van a utilizar. Los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes. La extracción convierte los datos a un formato preparado para iniciar el proceso de transformación. 2. Transformar: En esta etapa se seleccionan, modifican y priorizan los datos que se van a pasar a la última etapa, así como su nombre lo indica, los datos se transforman de modo que dependiendo del modelo de negocios que se vaya a trabajar, los datos puedan ser útiles y así tener una serie de patrones fácil de manipular dependiendo del modelo de negocios anteriormente mencionado. 3. Cargar: Es donde los datos ya “limpios” se llevan al sistema que se encargará de procesarlos, ahí es donde entran las tecnologías del datawarehouse, manteniendo el control de todos los registros que generen los datos, sean útiles o no. Funcionalidades de las ELT: Control de la extracción de los datos y su automatización, disminuyendo el tiempo empleado en el descubrimiento de procesos no documentados, minimizando el margen de error y permitiendo mayor flexibilidad. Acceso a diferentes tecnologías, haciendo un uso efectivo del hardware, software, datos y recursos humanos existentes. Proporcionar la gestión integrada del Data Warehouse y los Data Marts existente, integrando la extracción, transformación y carga para la construcción del Data Warehouse corporativo y de los Data Marts. Uso de la arquitectura de metadatos, facilitando la definición de los objetos de negocio y las reglas de consolidación. Acceso a una gran variedad de fuentes de datos diferentes. Manejo de excepciones. Planificación, logs, interfaces a schedulers de terceros, que nos permitirán llevan una gestión de la planificación de todos los procesos necesarios para la carga del DW. Interfaz independiente de hardware. Soporte en la explotación del Data Warehouse. Ejemplos de herramientas ETL: Ab Initio Benetl IBM Websphere DataStage (antes Ascential DataStage) Microsoft IntegrationServices Oracle WarehouseBuilder Sybase Syncsort: DMExpress. Opentext (antes Genio, Hummingbird) 19-.OLAP (ON LINE ANALYTICAL PROCESSING) OLAP es el acrónimo en inglés de procesamiento analítico en línea (On-Line Analytical Processing). Es una solución utilizada en el campo de la llamada inteligencia empresarial (o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza estructuras multidimensionales (o cubos OLAP) que contienen datos resumidos de grandes bases de datos o Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing, informes de dirección, minería de datos y áreas similares. Este análisis suele implicar, generalmente, la lectura de grandes cantidades de datos para llegar a extraer algún tipo de información útil: tendencias de ventas, patrones de comportamiento de los consumidores, elaboración de informes complejos… etc. Este sistema es típico de los datamarts. El acceso a los datos suele ser de sólo lectura. La acción más común es la consulta, con muy pocas inserciones, actualizaciones o eliminaciones. Los datos se estructuran según las áreas de negocio, y los formatos de los datos están integrados de manera uniforme en toda la organización. El historial de datos es a largo plazo, normalmente de dos a cinco años. Las bases de datos OLAP se suelen alimentar de información procedente de los sistemas operacionales existentes, mediante un proceso de extracción, transformación y carga (ETL). 20-.DIFERENCIA ENTRE DATA WAREHOUSE Y DATA MARST Un Data Warehouse es una base de datos corporativa en la que se integra información depurada de las diversas fuentes que hay en la organización. Dicha información debe ser homogénea y fiable, se almacena de forma que permita su análisis desde muy diversas perspectivas, y que a su vez dé unos tiempos de respuesta óptimos. Un Data Mart es una copia de las transacciones específicamente estructurada para la consulta y el análisis. Defiende por tanto una metodología Bottom-up a la hora de diseñar un almacen de datos. La diferencia de Data Warehouse y Data Mart es solamente en cuanto al alcance. Mientras que un Data Warehouse es un sistema centralizado con datos globales de la empresa y de todos sus procesos operacionales, un Data Mart es un subconjunto temático de datos, orientado a un proceso o un área de negocio específica. Debe tener una estructura óptima desde todas las perspectivas que afecten a los procesos de dicha área. Es más, según Ralph Kimball, cada Data Mart debe estar orientado a un proceso determinado dentro de la organización, por ejemplo, a pedidos de clientes, a compras, a inventario de almacén, a envío de materiales, etc. Si optamos por una solución basada en Data Marts, hay algo muy importante a tener en cuenta, no podemos volver a generar islas de información de las diferentes áreas o procesos de negocio, sino que han de quedar totalmente integradas para poder obtener siempre información coherente de toda organización. Para ello nos apoyamos en el uso de un Bus Dimensional que no es más que un esquema, habitualmente en forma de tabla, que representa los diversos Data Marts y las diferentes dimensiones definidas en nuestra organización 21-.CONTROL OBJECTIVES TECHNOLOGY (COBIT) FOR INFORMATION AND RELATED Las siglas COBIT significan Objetivos de Control para Tecnología de Información y Tecnologías relacionadas (Control Objectives for Information Systems and related Technology). Representa el conjunto de elementos organizacionales (objetivos estratégicos, departamentos, procesos, tecnología, personal, etc.) que describen a la empresa y se relacionan entre sí garantizando la alineación desde los niveles más altos (estratégicos) hasta los más bajos (operativos), con el fin de optimizar la generación de productos y servicios que conforman la propuesta de valor entregada a los clientes. Es precisamente un modelo para auditar la gestión y control de los sistemas de información y tecnología, orientado a todos los sectores de una organización, es decir, administradores IT, usuarios y por supuesto, los auditores involucrados en el proceso. También es un modelo de evaluación y monitoreo que enfatiza en el control de negocios y la seguridad IT y que abarca controles específicos de IT desde una perspectiva de negocios. Se aplica a los sistemas de información de toda la empresa, incluyendo los computadores personales y las redes. Está basado en la filosofía de que los recursos TI necesitan ser administrados por un conjunto de procesos naturalmente agrupados para proveer la información pertinente y confiable que requiere una organización para lograr sus objetivos. 22-.LEY DE INFOGOBIERNO El 21 de octubre de 2013 es promulgada en Gaceta Oficial La Ley de Infogobierno, la cual establece la obligatoriedad del uso de tecnologías de información libres y estándares abiertos a los poderes públicos nacionales, regionales y municipales, a los institutos autónomos, universidades, organizaciones de base del poder popular, asociaciones civiles y empresas del Estado, con el objetivo de mejorar la transparencia del estado y garantizar la independencia tecnológica. Esta ley deroga el decreto presidencial N° 3390, en donde se establecía el uso “prioritario” de Software Libre en la Administración Pública Nacional. A continuación presento una selección de los artículos que considero más relevantes. En el primer artículo se define el objeto de la Ley de Infogobierno: Artículo 1. Esta Ley tiene por objeto establecer los principios, bases y lineamientos que rigen el uso de las tecnologías de información en el Poder Público y el Poder Popular, para mejorar la gestión pública y los servicios que se prestan a las personas; impulsando la transparencia del sector público; la participación y el ejercicio pleno del derecho de soberanía; así como, promover el desarrollo de las tecnologías de información libres en el Estado; garantizar la independencia tecnológica; la apropiación social del conocimiento; así como la seguridad y defensa de la Nación. Finalidad de la Ley de Infogobierno Artículo 3. Esta Ley tiene como fines: 1. Facilitar el establecimiento de relaciones entre el Poder Público y las personas a través de las tecnologías de información. 2. Establecer las condiciones necesarias y oportunas que propicien la mejora continua de los servicios que el Poder Público presta a las personas, contribuyendo así en la efectividad, eficiencia y eficacia en la prestación de los servicios públicos. 3. Universalizar el acceso de las personas a las tecnologías de información libres y garantizar su apropiación para beneficio de la sociedad. 4. Garantizar el ejercicio de los derechos y el cumplimiento de los deberes de las personas, a través de las tecnologías de información. 5. Promover el empoderamiento del Poder Popular a través de la generación de medios de participación y organización de las personas, haciendo uso de las tecnologías de información. 6. Garantizar la transparencia de la gestión pública, facilitando el acceso de las personas a la información pública. 7. Apoyar el fortalecimiento de la democracia participativa y protagónica en la gestión pública y el ejercicio de la contraloría social. 8. Contribuir en los modos de organización y funcionamiento del Poder Público, apoyando la simplificación de los trámites y procedimientos administrativos que éstos realizan. 9. Establecer los principios para la normalización y estandarización en el uso de las tecnologías de información, a los sujetos sometidos a la aplicación de esta Ley. 10. Promover la adquisición, desarrollo, investigación, creación, diseño, formación, socialización, uso e implementación de las tecnologías de información libres a los sujetos sometidos a la aplicación de esta Ley. 11. Establecer las bases para el Sistema Nacional de Protección y Seguridad de la Información, en los términos establecidos en la presente Ley y por otros instrumentos legales que regulen la materia. 12. Fomentar la independencia tecnológica y con ello fortalecer el ejercicio de la soberanía nacional, sobre la base del conocimiento y uso de las tecnologías de información libres en el Estado. 23-.DIMENSIONES DE LA CALIDAD DE LOS DATOS La calidad de los datos no se vislumbra a través de una sola mirada, para que los datos tengan un nivel de calidad adecuado debe satisfacer diferentes aristas o dimensiones que incluyen entre otras las siguientes: 1. Completitud: Los datos están completos y tienen la suficiente amplitud y profundidad para soportar el proceso. Todas las instancias del negocio existen. 2. Exactitud: Los datos tienen el nivel de detalle requerido para realizarla el proceso de negocio. 3. Correctitud: Los datos están dentro del dominio de valores válidos y cumplen las reglas del negocio. 4. Oportunidad: Los datos están debidamente actualizados para el proceso a realizar. 5. Representación consistente: Los datos están presentados en el mismo formato y son fáciles de manipular y utilizar en diferentes procesos. 6. Valor consistente: Los valores de datos que se refieren al mismo elemento son iguales o consistentes. 7. Interpretabilidad: Los datos están representados en un lenguaje apropiado, con símbolos, unidades y definiciones claras.