UNIDAD III Tecnologías informáticas de almacenamiento electrónico de información El problema del almacenamiento de datos. Almacenar datos y respaldar información siempre ha sido una de las necesidades más importantes a resolver por parte de las empresas de computación. En los últimos años se ha desarrollado un importante movimiento que pone énfasis en el almacenamiento en nube, aunque se cuestiona su confiabilidad. El avance de los dispositivos de almacenamiento físico ha sido vertiginoso y sigue, confiando en que las nuevas tecnologías no lo perjudican. Cada día se hace más ventajoso para los usuarios poder disponer de los archivos de una forma cómoda y práctica. En este caso nada más fácil que acceder a un directorio virtual, en vez de respaldar información en una computadora o memoria extraíble. En la actualidad existen servicios de almacenamiento virtual gratuitos y pagos, con diferentes capacidades y funcionalidades. Algunos de ellos ofrecen la capacidad de sincronizarlo con dispositivos de telefonía celular y realizar respaldos de la información guardada, y otros están destinados a tipos específicos de archivos. Aunque todas parezcan ventajas frente al almacenamiento fijo, hay quienes miran con desconfianza el almacenamiento remoto, preocupándose por la confidencialidad de los datos. El sistema de almacenamiento podría ser burlado en su seguridad y vulnerados los datos de los archivos. Es por eso que varias empresas comenzaron a utilizar un sistema que combina ambas alternativas almacenando información confidencial en dispositivos físicos. Almacenamiento tradicional de datos y archivos. La mayor parte de las organizaciones que implementaron sus sistemas entre las décadas de los 70 y los 80, lo hicieron bajo el concepto del ambiente tradicional de archivos. Las necesidades de información que surgían en distintas áreas funcionales o bien en diferentes unidades de negocio, se resolvían por medio de distintos sistemas de información independientes. Las distintas áreas crearon sus propios sistemas y archivos de datos. A nivel gerencial los administradores de la organización tenían que lidiar con reportes e información proveniente de sistemas distintos, que en algunos casos eran incongruentes entre sí, generando en los directivos desconfianza acerca de la verosimilitud de la información proporcionada por los sistemas. Los archivos que generan y manipulan los sistemas de información se guardan en dispositivos de almacenamiento secundario, típicamente discos duros o cintas magnéticas. Existen distintas técnicas para el almacenamiento y posterior recuperación de los archivos: Acceso Secuencial Bajo esta técnica los registros de un archivo se recuperan, uno a uno, en el mismo orden físico en que fueron almacenados. Un ejemplo de acceso secuencial podría ser un sistema de nómina, donde los registros correspondientes a los recibos de sueldos se deben acceder, uno por uno, generando el medio de pago respectivo. Acceso Directo Con este método se puede localizar directamente un registro determinado a través de su campo clave. Existen dos formas de llevar a cabo el acceso directo: Acceso Directo por Índices: consiste en mantener una tabla, a modo de índice, que relaciona los valores de los campos clave con la posición física en la que está ubicado el registro en el archivo. Se puede hacer una analogía entre el índice de un archivo y el índice de un libro. Acceso Directo con Algoritmo de Transformación: consiste en aplicar un algoritmo o fórmula matemática al valor del campo clave de un registro, obteniendo como resultado la posición física donde se encuentra almacenado el registro. Problemas comunes en sistemas de almacenamiento tradicional Los principales problemas del ambiente tradicional de archivos son: Redundancia de Datos: La redundancia de datos se produce por la existencia de los mismos datos en diferentes archivos. Por ejemplo un sistema de cuentas corrientes de ventas seguramente tendrá un archivo maestro de clientes; paralelamente el área de marketing podría tener también un archivo con los mismos clientes. Suele ocurrir en estos casos que un mismo cliente archivado en ambas áreas, cuentas corrientes y marketing, tenga un código de identificación distinto en cada una de éstas. Un cliente que cambia de domicilio es posible que en un momento dado tenga registrado distintos domicilios, según se consulte en el área de cuentas corrientes o en marketing. Dependencia programas-datos: Consiste en la estrecha relación entre los archivos de datos y los programas que acceden a éstos. El conocimiento de la organización de los datos y de las técnicas para acceder a ellos forma parte del código con el que están escritos los programas que los utilizan. En esta situación es imposible alterar la estructura de los archivos (por ejemplo la cantidad de campos, su tamaño o tipo de dato que puede contener) o la técnica de acceso a ellos (por ejemplo secuencial, indexado, directo, etc.) sin tener que modificar todos los programas que utilizan estos archivos. Falta de Flexibilidad: Los sistemas cuyos datos se organizan en un ambiente tradicional sólo pueden brindar los reportes de rutina que están programados de antemano. Si un usuario del sistema requiere un nuevo informe que reúna los datos en una forma no prevista con anterioridad se deberá construir un programa que lo genere, insumiendo horas de trabajo de los programadores. Pobre Seguridad: La diseminación de los archivos en distintas áreas trae como consecuencia que no exista un control unificado sobre el acceso que pueden tener los usuarios a los mismos. Los controles de acceso deben implementarse en cada uno de los programas que los acceden. Por ejemplo el archivo de clientes del área cuentas corrientes puede tener fuertes restricciones en cuanto al acceso al mismo, por otro lado puede ser muy fácil acceder al mismo archivo que existe en el área de marketing. Dificultad para Compartir y Disponer de los Datos: La falta de una administración centralizada de los datos que provoca los problemas mencionados ut supra hace que sea difícil acceder a los datos. Por otra parte, dado que los archivos tienen distinta estructura y codificación resulta muy difícil y complejo compartir datos entre los distintos sistemas. Consideraciones empresariales al evaluar medios de almacenamiento. Existen cuatro razones básicas por las que una compañía realiza actividades de almacenamiento: Reducción de los costos de transporte-producción El almacenamiento y el inventario asociado al mismo son dos factores que generan nuevos gastos. No obstante, ese aumento de costos se compensa con la disminución de los de transporte y producción, ya que se mejora la eficiencia de ambos procesos. Coordinación entre el suministro y la demanda Las compañías que tienen una producción de carácter estacional y una demanda racionalmente constante suelen tener problemas de coordinación entre la demanda y el suministro. Un ejemplo de esta situación son las empresas de alimentación, ya que, para mantener su oferta de frutas y vegetales enlatados, deben almacenar toda su producción en las épocas de recogida con el fin de abastecer el mercado el resto del año. Siempre que sea demasiado costoso coordinar de forma precisa la demanda y el suministro es necesario el uso de almacenes. Precio de los productos Aquellas mercancías y artículos que experimentan grandes variaciones en el precio de un periodo a otro, (Cobre, acero, petróleo) pueden obligar a las compañías a hacer compras de los mismos por adelantado, de modo que se obtengan a precios más bajos, compensando así el costo de los almacenes necesarios para su mantenimiento. Apoyo al proceso de producción El almacenamiento puede formar parte del proceso de producción. La fabricación de ciertos productos como quesos, vinos o licores, requiere un periodo de almacenamiento para su maduración. No obstante los almacenes no solo sirven para guardar el producto en esta fase de su fabricación, sino que también sirven para mantener el depósito la mercancía libre de impuestos hasta el momento de su venta. De esta manera la compañía puede retrasar el pago de los impuestos hasta que el producto sea vendido. Apoyo al proceso de comercialización La comercialización generalmente se ocupa de cuándo y cómo estará disponible en el mercado. Aquí el almacenamiento se emplea para dar valor a un producto, de modo que si se almacena el mismo cerca del cliente, el tiempo de entrega, por ejemplo disminuye. Esta mejora en el servicio al comprador puede producir un incremento de las ventas. Estructura de datos y archivos Estructura de datos Las estructuras de datos determinan la conexión lógica entre los datos y afectan el procesamiento físico de los datos. Una estructura de datos es una clase de datos que se puede caracterizar por su organización y operaciones definidas sobre ella. Algunas veces a estas estructuras se les llama tipos de datos. Una estructura de datos es una colección de datos que pueden ser caracterizados por su organización y las operaciones que se definen en ella. Las estructuras de datos son muy importantes en los sistemas de computadora. Estructura de archivos. Los sistemas de archivos (filesystem en inglés), estructuran la información guardada en una unidad de almacenamiento (normalmente un disco duro) de una computadora, que luego será representada ya sea textual o gráficamente utilizando un gestor de archivos. La mayoría de los sistemas operativos poseen su propio sistema de archivos. Lo habitual es utilizar dispositivos de almacenamiento de datos que permiten el acceso a los datos como una cadena de bloques de un mismo tamaño, a veces llamados sectores, usualmente de 512 bytes de longitud. El software del sistema de archivos es responsable de la organización de estos sectores en archivos y directorios y mantiene un registro de qué sectores pertenecen a qué archivos y cuáles no han sido utilizados. En la práctica, un sistema de archivos también puede ser utilizado para acceder a datos generados dinámicamente, como los recibidos a través de una conexión de red (sin la intervención de un dispositivo de almacenamiento). Organización de datos y archivos. Almacenamiento físico de los archivos El almacenamiento físico de archivos se realiza en grupos o clusters. Los cuales son un conjunto de sectores tratados como grupo para efectos de lectura o grabación, por ser la “unidad de almacenamiento más pequeña accesible para una computadora”. La cantidad de sectores (segmentos de almacenamiento en el disco) que utiliza el Sistema Operativo (SO) para leer o escribir información; normalmente un clúster está formado por dos a ocho sectores, cada uno de los cuales mantiene un cierto número de bytes (caracteres). Cuando la computadora almacena un archivo en un disco, el SO registra el número del grupo que contiene el inicio del archivo en una Tabla de Asignación de Archivos. Conceptos fundamentales de los datos. Campo Un campo es un conjunto de caracteres capaz de suministrar una determinada información referida a un concepto. Un campo es un elemento de datos elementales tales como nombre y apellido, numero de documento, domicilio, etc.Al igual que en las variables, al definir un campo hay que indicar claramente sus tres características: Nombre: Nombre que identifica a ese conjunto de caracteres Tipo: Tipo de caracteres que puede contener (alfabético, entero, etc.) Tamaño: Cantidad de caracteres que puede contener. Registro Un registro es un conjunto de campos referentes a una entidad en particular y constituyen una unidad para su proceso. Archivo Es el conjunto de registros homogéneos referidos a objetos de la misma naturaleza o del mismo tipo, almacenados en un soporte externo, que presenta entre sí una relación lógica y que pueden ser consultados individualmente de forma iterativa o sistemática. Base de datos Es una colección de archivos relacionados lógicamente, que se estructura en diferentes formas para reducir duplicaciones y proporcionar un mejor acceso a los datos. Constituye el nivel más alto en la jerarquía de organización de los datos, siendo el nivel más bajo el carácter. Tipos de bases de datos. Se denomina base de datos a un conjunto de información sobre una temática determinada, la cual es almacenada de forma metódica con el propósito de ser utilizada en la posteridad. Actualmente, las bases de datos son realizadas en formato digital, lo que permite acumular una gran cantidad de información, en poco espacio y acelerar su búsqueda ulterior. BASE DE DATOS BIBLIOGRÁFICA: esta clase de base de datos contiene información acerca del autor de una producción bibliográfica, el título, fecha de publicación, edición, entre otras. También suele contener una sinopsis de la publicación, pero nunca presentara el texto en su totalidad. BASES DE DATOS DE TEXTO COMPLETO: contiene la totalidad de una determinada fuente de carácter primario, incluyendo todo su contenido y todas sus ediciones. Es decir que se constituyen por los propios documentos con su respectivo texto. Suelen, además, incluir un resumen o descripción con el propósito de acelerar la búsqueda. BASES DE DATOS ESTÁTICAS: con este término se hace referencia aquellas bases de datos de sólo lectura. Su propósito esencial consiste en el almacenamiento de información de carácter histórico, con el fin de que luego sea usada para analizar la conducta de una serie de datos a lo largo del tiempo. De esta manera, es posible efectuar proyecciones y actuar en consecuencia. BASES DE DATOS DINÁMICAS: reciben esta denominación debido a que los datos allí acumulados son reformados con el correr del tiempo. De esta manera se realizan acciones tales como actualizaciones, eliminaciones o agregado de datos, más allá de las acciones básicas de consulta. Almacén de datos y minería de datos. Es una técnica para consolidar y administrar datos desde variadas fuentes con el propósito de responder preguntas de negocios y tomar decisiones. El proceso de Almacen de datos debe proveer: -la información correcta, -a la persona indicada, -en el formato adecuado, -y en el tiempo preciso. Consolidar datos desde una variedad de fuentes -Transformación de Datos. Manejar grandes volúmenes de datos-Procesamiento y Administración de Datos. Acceder a los datos de una forma más directa, y analizarlos para obtener relaciones complejas entre los mismos Minería de datos La minería de datos emplea de forma sistemática diversas técnicas de análisis de datos en los procesos de toma de decisiones empresariales utilizando la información oculta en grandes bancos de datos que diariamente se generan en la actividad económica, con posibilidad de aumentar el beneficio, pero también con graves riesgos para preservar la intimidad de las personas. Estructuras de base de datos. El conjunto unificado de información, resultante de nuestro proyecto informático y, que será compartida por los diferentes usuarios de la organización, va a conformar la denominada Base de Datos. La función básica de una base de datos es permitir el almacenamiento y la recuperación de la información necesaria, para que las personas de la organización puedan tomar decisiones. Es así que las Bases de Datos se tornan esenciales para la supervivencia de cualquier organización; pues los datos estructurados constituyen un recurso básico para todas las organizaciones. Dependiendo de la capacidad de almacenamiento y procesamiento del hardware, la organización puede contar con una única Base de Datos, o con múltiples Bases de Datos. Tecnologías de almacenamiento. El conjunto de actividades que se realiza en los almacenes tiene como objetivo fundamental, la conservación de las mercancías durante el período que media entre su producción o la llegada al país procedente del exterior y el consumo. La tecnología de almacenamiento abarca la forma de conservación del inventario, las operaciones de transportación interna e izaje, los sistemas de almacenamiento y desplazamiento de los flujos de carga y la mecanización o automatización de los trabajos de índole operativo-organizativo, así como la organización integral de la actividad. El valor fundamental de la tecnología de almacenamiento, crece simultáneamente con los ritmos de desarrollo de la producción. Del crecimiento constante de la producción se desprende la exigencia de un mayor control de inventario en los almacenes. Por esto es imprescindible prestarle la debida atención al desarrollo de la tecnología de almacenamiento. Tecnología de disco magnético y de cinta. DISCOS MAGNÉTICOS Los discos magnéticos, ya sean discos duros o flexibles, son utilizados, junto a las unidades de CD-ROM y unidades de DVD, entre otras, como dispositivos de almacenamiento secundario. A diferencia de la memoria principal, cuyos datos permanecen en ella un tiempo limitado (hasta que dejamos de suministrar energía eléctrica), son capaces de conservar la información de manera permanente, o al menos mientras su estado físico sea óptimo, puesto que un mal uso o mantenimiento de los mismos, así como la acción de condiciones externas, pueden alterar y perjudicar su funcionalidad. No obstante, a pesar de que los CDs y los discos tienen la misma finalidad, se distinguen en muchos aspectos tales como su tecnología, modo y capacidad de almacenamiento, tiempo de acceso y transferencia de bytes, seguridad y mantenimiento de los datos, así como en el coste de fabricación. Desde el punto de vista de almacenamiento de la información, mientras que en los discos magnéticos es la acción de un campo magnético el que realiza la lectura/escritura, en un CD esta es realizada por efecto de un rayo láser. Dentro de los discos magnéticos, nos centraremos mayormente en su tecnología, materiales para su fabricación, estructura interna y modo de lectura/escritura de bytes. Tecnologías de Disco Óptico. Los discos ópticos, independientemente de que sean CD o DVD, están fabricados en diversas capas de materiales de las que destacan principalmente tres: Policarbonato: Es la masa del disco, lo que se suele llamar 'el plástico'. Se trata de una pasta hecha con un material de carbono muy similar a los polivinilos y otros materiales plásticos que se utilizan en la industria de los tubos y conducciones. El policarbonato se ablanda a elevadas temperaturas (quien haya dejado un Cd en el salpicadero de un coche en un día de verano durante varias horas lo habrá comprobado) y es rígido a temperatura ambiente. Tinte fotosensible: El policarbonato, además de ofrecer la necesaria rigidez al disco óptico, soporta en su seno un tinte fotosensible, que es el segundo componente, y el más importante, de los CD y DVD. La mezcla del policarbonato y el tinte produce una pasta de color verde azulado. Este color, que es el que se ve en la cara no impresa de muchos discos ópticos grabables, se debe al tinte fotosensible. Recubrimiento metálico: Se trata de una capa de metal de grosor imperceptible que recubre la cara legible del disco. El metal empleado en esta capa es uno de los factores que definen la calidad del disco. Las marcas más baratas suelen emplear aluminio, mientras que los discos de gama media incorporan plata y los de gama alta oro. Los mejores recubrimientos están hechos con una aleación de oro y plata. Del tipo de metal empleado depende la durabilidad del disco. Esto es el tiempo durante el que el disco guardará y transmitirá correctamente la información que contiene. La función del recubrimiento metálico es reflejar el rayo láser del lector. Almacenamiento de Estado Sólido. Es una unidad de estado sólido o SSD (acrónimo en inglés de solid-state drive) es un dispositivo de almacenamiento de datos que usa una memoria no volátil, como la memoria flash, o una memoria volátil como la SDRAM, para almacenar datos, en lugar de los platos giratorios magnéticos encontrados en los discos duros convencionales. En comparación con los discos duros tradicionales, las unidades de estado sólido son menos susceptibles a golpes, son prácticamente inaudibles y tienen un menor tiempo de acceso y de latencia. Los SSD hacen uso de la misma interfaz que los discos duros, y por tanto son fácilmente intercambiables sin tener que recurrir a adaptadores o tarjetas de expansión para compatibilizarlos con el equipo. Aunque técnicamente no son discos a veces se traduce erróneamente en español la "D" de SSD como disk cuando en realidad representa la palabra drive, que podría traducirse como unidad o dispositivo. Se han desarrollado dispositivos que combinan ambas tecnologías, es decir discos duros y memorias flash, y se denominan discos duros híbridos. Productividad mejorada Acelera el procedimiento aleatorio de E/S para aumentar la productividad, especialmente para aplicaciones con transacciones intensivas Flexibilidad operativa Modelos de servidor FC, iSCSI y SAS soportan configuraciones DAS y SAN. Alta disponibilidad Diseños de hardware sin punto de fallo, protección RAID y soporte MPIO para minimizar los periodos de inactividad del sistema inducidos por fallos de hardware. Mejor eficiencia Potencia las unidades SSD de 2,5" para reducir los requisitos de potencia, refrigeración y huella. DAS, NAS y SAN NAS Si desea optimizar sus recursos de memoriade un modo eficaz y económico, apueste por el servidor NAS (Network Attached Storage). Equipado con un procesador y un sistema operativo, discos duros conectados a través de RAID y una tarjeta de red, las aplicaciones del servidor NAS ponen a disposición del usuario una memoria de alta velocidad con amplias capacidades. Flexible y sin complicaciones. Ante todo las pequeñas y medianas empresas, pero también los departamentos más grandes, pueden incrementar con esta técnica su volumen de memoria sin complicaciones. En una infraestructura NAS típica, el servidor NAS se conecta a la LAN. Aunque tanto los sistemas NAS como los SAN Storage-Area-Networks) separan la memoria de cada servidor, los sistemas NAS están unidos a la red local, a diferencia delos SAN. Gracias a esta disposición, los sistemas NAS permiten la rápida ampliación de la memoria necesaria sin modificar la arquitectura existente de cliente/servidor. Además, las instalaciones NAS pueden utilizarse sin problemas en los entornos de sistema operativo más heterogéneos. Suelen utilizarse en servicios de archivos y de impresión. DAS DAS (Direct Attached Storage) es una tecnología de almacenamiento que se utiliza para aumentar la capacidad de almacenamiento de un servidor. Los dispositivos DAS se conectan físicamente a el servidor que lo utilizará, a travez de un HBA (Host Bus Adapter) La comunicación entre un servidor y un dispositivo DAS se realiza por medio de los protocolos SCSI o Fibre-Channel. SAN SAN (Storage Area Network- Red de Area de Almacenamiento) es una red concebida para conectar servidores, arrays de discos y equipos de respaldo, está basada en tecnología fibre channel, o lo que es más común actualmente, en iSCSI. SAN se distingue de otros modos de almacenamiento en red porque realiza el acceso a los archivos a bajo nivel. El tráfico que circula por una red SAN es muy similar al de los discos SCSI, ATA o SATA, aunque actualmente la mayoría de los sistemas utilizan el protocolo SCSI. Si bien los sistemas SAN utilizan el protocolo SCSI para comunicarse, no están conectados físicamente de este modo, solamente hacen uso de este protocolo para la comunicación entre los medios de almacenamiento y los servidores. Las redes SAN pueden contar con diferentes topologías, pueden estar conectadas en cascada, en anillo, o en malla, y todas proveen capacidades diferentes a la SAN.