Tecnología RAID Pág. 1 La Tecnología RAID (Redundant array of independent disks o Redundant array of inexpensive disks): Afirmar que la información es el activo más valioso e importante de cualquier empresa y que los datos han de estar disponibles en todo momento (24x7x365) y asegurados contra incidencias, es un hecho sumamente aceptado en la actualidad. El coste de una posible pérdida de información y el tiempo durante el cual el sistema no está en explotación mientras se soluciona el problema, es un lujo que cada vez menos empresas pueden permitirse. Así pues, disponer de un sistema de almacenamiento seguro y tolerante al fallo, como los sistemas RAID StoreData y MacData, se hace indispensable. La utilización de sistemas de almacenamiento tolerantes al fallo es imprescindible actualmente en la configuración de un servidor de datos. Diferentes estudios demuestran que el coste de la pérdida de datos, sumado al coste del tiempo durante el cual el sistema no está en explotación, es superior al coste de un sistema RAID. En la actualidad es normal que los sistemas estén funcionando de forma permanente las 24 horas. Un fallo en un disco supone la pérdida de acceso a los datos hasta que éste ha sido repuesto y la información restaurada a través de la copia de seguridad. Una vez recuperado el sistema, toda la información generada en el tiempo transcurrido entre la última copia de seguridad y el instante del fallo, se ha perdido de forma irremediable. El coste del tiempo de no utilización del sistema, más el coste de la información perdida en dicho intervalo es muy elevado. La tecnología RAID asegura la integridad de los datos ante la eventual avería de uno de los discos, asegurando un funcionamiento continuo y permitiendo incluso la substitución de la unidad defectuosa sin necesidad de detener los procesos que se estén ejecutando. ¿Qué es RAID? El término RAID es un acrónimo del inglés "Redundant Array of Independent Disks". Significa matriz redundante de discos independientes o también se usa "Redundant Array of Inexpensive Disks", es decir, matriz redundante de discos de bajo coste. RAID es un método de combinación de varios discos duros para formar una única unidad lógica en la que se almacenan los datos de forma redundante. Ofrece mayor tolerancia a fallos y más altos niveles de rendimiento que un sólo disco duro o un grupo de discos duros independientes. Una matriz consta de dos o más discos duros que ante el sistema principal funcionan como un único dispositivo. Un RAID, para el sistema operativo, aparenta ser un sólo disco duro lógico (LUN). Los datos se desglosan en fragmentos que se escriben en varias unidades de forma simultánea. En este método, la información se reparte entre varios discos, usando técnicas como el entrelazado de bloques (RAID nivel 0) o la duplicación de discos (RAID nivel 1) para proporcionar redundancia, reducir el tiempo de acceso, y/o obtener mayor ancho de banda para leer y/o escribir, así como la posibilidad de recuperar un sistema tras la avería de uno de los discos. La tecnología RAID protege los datos contra el fallo de una unidad de disco duro. Si se produce un fallo, RAID mantiene el servidor activo y en funcionamiento hasta que se sustituya la unidad defectuosa. V. 29012009 Tecnología RAID Pág. 2 La tecnología RAID se utiliza también con mucha frecuencia para mejorar el rendimiento de servidores y estaciones de trabajo. Estos dos objetivos, protección de datos y mejora del rendimiento, no se excluyen entre sí. RAID ofrece varias opciones, llamadas niveles RAID, cada una de las cuales proporciona un equilibrio distinto entre tolerancia a fallos, rendimiento y coste. Todos los sistemas RAID suponen la pérdida de parte de la capacidad de almacenamiento de los discos, para conseguir la redundancia o almacenar los datos de paridad. Los sistemas RAID profesionales deben incluir los elementos críticos por duplicado: fuentes de alimentación y ventiladores redundantes y Hot Swap (Hot Swap: Habilidad de sustituir un dispositivo o componente defectuoso de un sistema y reemplazarlo por otro sin apagar el sistema y sin interferir en las funciones de otros dispositivos. También llamado "cambio en caliente".). De poco sirve disponer de un sistema tolerante al fallo de un disco si después falla por ejemplo una fuente de alimentación que provoca la caída del sistema. También cada vez es más recomendable, sobre todo en instalaciones de cluster, configuraciones de dos controladoras redundantes y Hot Swap, de manera que en el caso de fallo de una de ellas se puede proceder a su sustitución sin tener que detener el funcionamiento del sistema. Además, esta configuración con controladoras redundantes nos permite conectar el sistema RAID a diferentes servidores simultáneamente. Fig.1 Ejemplos de discos con tecnología RAID V. 29012009 Tecnología RAID Pág. 3 Ventajas de RAID RAID proporciona tolerancia a fallos, mejora el rendimiento del sistema y aumenta la productividad. Tolerancia a fallos: RAID protege contra la pérdida de datos y proporciona recuperación de datos en tiempo real con acceso interrumpido en caso de que falle un disco. Mejora del Rendimiento/ Velocidad: Una matriz consta de dos o más discos duros que ante el sistema principal funcionan como un único dispositivo. Los datos se desglosan en fragmentos que se escriben en varias unidades de forma simultánea. Este proceso, denominado fraccionamiento de datos, incrementa notablemente la capacidad de almacenamiento y ofrece mejoras significativas de rendimiento. RAID permite a varias unidades trabajar en paralelo, lo que aumenta el rendimiento del sistema. Mayor Fiabilidad: Las soluciones RAID emplean dos técnicas para aumentar la fiabilidad: la redundancia de datos y la información de paridad. La redundancia implica el almacenamiento de los mismos datos en más de una unidad. De esta forma, si falla una unidad, todos los datos quedan disponibles en la otra unidad, de inmediato. Aunque este planteamiento es muy eficaz, también es muy costoso, ya que exige el uso de conjuntos de unidades duplicados. El segundo planteamiento para la protección de los datos consiste en el uso de la paridad de datos. La paridad utiliza un algoritmo matemático para describir los datos de una unidad. Cuando se produce un fallo en una unidad se leen los datos correctos que quedan y se comparan con los datos de paridad almacenados por la matriz. El uso de la paridad para obtener fiabilidad de los datos es menos costoso que la redundancia, ya que no requiere el uso de un conjunto redundante de unidades de disco. Alta Disponibilidad: RAID aumenta el tiempo de funcionamiento y la disponibilidad de la red. Para evitar los tiempos de inactividad, debe ser posible acceder a los datos en cualquier momento. La disponibilidad de los datos se divide en dos aspectos: la integridad de los datos y tolerancia a fallos. La integridad de los datos se refiere a la capacidad para obtener los datos adecuados en cualquier momento. La mayoría de las soluciones RAID ofrecen reparación dinámica de sectores, que repara sobre la marcha los sectores defectuosos debidos a errores de software. La tolerancia a fallos, el segundo aspecto de la disponibilidad, es la capacidad para mantener los datos disponibles en caso de que se produzcan uno o varios fallos en el sistema. Implementación de RAID Los sistemas RAID pueden implementarse de dos formas: • Mediante software: sistema poco práctico porque supone una considerable carga de trabajo adicional al microprocesador y puede requerir que el disco del sistema operativo no pertenezca al RAID. • Mediante hardware: sistema en el que la carga de trabajo recae sobre un elemento especializado llamado controladora RAID, con el esquema interno del RAID absolutamente invisible para el resto del sistema. V. 29012009 Tecnología RAID Pág. 4 Niveles de RAID La elección de los diferentes niveles de RAID va a depender de las necesidades del usuario en lo que respecta a factores como seguridad, velocidad, capacidad, coste, etc. Cada nivel de RAID ofrece una combinación específica de tolerancia a fallos (redundancia), rendimiento y coste, diseñadas para satisfacer las diferentes necesidades de almacenamiento. La mayoría de los niveles RAID pueden satisfacer de manera efectiva sólo uno o dos de estos criterios. No hay un nivel de RAID mejor que otro; cada uno es apropiado para determinadas aplicaciones y entornos informáticos. De hecho, resulta frecuente el uso de varios niveles RAID para distintas aplicaciones del mismo servidor. Oficialmente existen siete niveles diferentes de RAID (0-6), definidos y aprobados por el RAID Advisory Board (RAB). Luego existen las posibles combinaciones de estos niveles (10, 50, ...). Los niveles RAID 0, 1, 0+1 y 5 son los más populares. JBOD: Concatenación de discos Ante todo, dejemos claro que JBOD no es un método RAID, pues no aumenta la fiabilidad ni el rendimiento; sin embargo, muchas controladoras RAID lo incluyen por lo sencillo que les resulta implementarlo. JBOD significa “Just a Bunch Of Disk” (“Simplemente una unión de discos”). Un sistema JBOD une varios discos en un único “disco lógico”, de forma absolutamente lineal: cuando un disco se llena, se empieza a ocupar el siguiente, pero el usuario no nota esta unión. El rendimiento que se obtiene es el mismo que sería con los discos sueltos (siempre que se trate de RAID por hardware) y no existe redundancia alguna; pero es cómodo para unir varios discos pequeños que se tengan por ahí en uno de gran tamaño, que permita por ejemplo almacenar archivos realmente grandes (como los generados en la grabación de vídeo sin compresión). De todas formas, su utilidad es escasa. RAID 0: Disk Striping "La más alta transferencia, pero sin tolerancia a fallos". También conocido como "separación ó fraccionamiento/ Striping". Los datos se desglosan en pequeños segmentos y se distribuyen entre varias unidades. Este nivel de "array" o matriz no ofrece tolerancia al fallo. Al no existir redundancia, RAID 0 no ofrece ninguna protección de los datos. El fallo de cualquier disco de la matriz tendría como resultado la pérdida de los datos y sería necesario restaurarlos desde una copia de seguridad. Por lo tanto, RAID 0 no se ajusta realmente al acrónimo RAID. Consiste en una serie de unidades de disco conectadas en paralelo que permiten una transferencia simultánea de datos a todos ellos, con lo que se obtiene una gran velocidad en las operaciones de lectura y escritura. La velocidad de transferencia de datos aumenta en relación al número de discos que forman el conjunto. Esto representa una gran ventaja en operaciones secuénciales con ficheros de gran tamaño. Por lo tanto, este array es aconsejable en aplicaciones de tratamiento de imágenes, audio, video o CAD/CAM, es decir, es una buena solución para cualquier aplicación que necesite un almacenamiento a gran velocidad pero que no requiera tolerancia a fallos. V. 29012009 Tecnología RAID Pág. 5 Se necesita un mínimo de dos unidades de disco para implementar una solución RAID 0. RAID 0: Striped Disk Array without Fault Tolerance RAID nivel 0 requiere un mínimo de 2 unidades de disco para implementarlo Características/Ventajas Desventajas RAID 0 implementa un fraccionamiento en pequeños segmentos (a striped disk array), los datos son separados en bloques y cada bloque es escrito en un disco distinto. No es un verdadero sistema RAID porque no tiene tolerancia a fallos. Permite acceder a más de un disco a la vez, logrando una tasa de transferencia más elevada y un rápido tiempo de acceso. Proporcionan un alto rendimiento. El mejor rendimiento se da cuando los datos son separados en varios controladores con una sola unidad de disco por controlador. No tiene un costo adicional. Toda la capacidad del disco se emplea. Muy simple de diseñar. Fácil de implementar. V. 29012009 Un error en uno de los discos implica la perdida total de los datos. Nunca debería ser usado en entornos críticos. Aplicaciones Recomendadas • • • Edición de Video Edición de imágenes Cualquier aplicación que requiera un alto ancho de banda. Tecnología RAID Pág. 6 RAID 1: Mirroring "Redundancia. Más rápido que un disco y más seguro" También llamado "Mirroring" o "Duplicación" (Creación de discos en espejo). Se basa en la utilización de discos adicionales sobre los que se realiza una copia en todo momento de los datos que se están modificando. RAID 1 ofrece una excelente disponibilidad de los datos mediante la redundancia total de los mismos. Para ello, se duplican todos los datos de una unidad o matriz en otra. De esta manera se asegura la integridad de los datos y la tolerancia al fallo, pues en caso de avería, la controladora sigue trabajando con los discos no dañados sin detener el sistema. Los datos se pueden leer desde la unidad o matriz duplicada sin que se produzcan interrupciones. RAID 1 es una alternativa costosa para los grandes sistemas, ya que las unidades se deben añadir en pares para aumentar la capacidad de almacenamiento. Sin embargo, RAID 1 es una buena solución para las aplicaciones que requieren redundancia cuando hay sólo dos unidades disponibles. Los servidores de archivos pequeños son un buen ejemplo. Esta diseñado para sistemas en donde la disponibilidad de información es esencial y su reemplazo resultaría difícil y costoso (mas costoso que reponer el disco en si) Típico en escrituras aleatorias pequeñas con tolerancia a fallos. El problema de este tipo de RAID es el costo que implica duplicar el disco. La configuración de nivel 1 de Raid o disco en espejo incluye dos unidades de disco: 1 unidad de datos y una unidad de replica. Cuando se escriben datos en una unidad, también se escriben en la otra. El disco redundante es una replica exacta del disco de datos, por lo que se conoce también como disco espejo. Los datos pueden leerse de cualquiera de las 2 unidades de forma que si se avería la unidad de datos es posible acceder a la unidad de replica, con lo que el sistema puede seguir funcionando. Con el nivel de Raid se obtiene la misma velocidad de lectura/ escritura que una configuración normalizada de disco, por lo que constituye la mejor opción para aplicaciones que conllevan un gran número de operaciones de escritura. Su principal inconveniente es el costo que supone multiplicar el número de discos necesarios para los datos desaprovechando la mitad de la capacidad total del conjunto del disco. Es el mejor en ambientes que necesitan un alto rendimiento de lectura, pues el controlador selecciona la unidad que ofrece el tiempo de búsqueda mas rápido. El problema se presenta cuando se escriben datos deteriorados en un disco, pues son duplicados con los mismos defectos en el disco espejo. Se necesita un mínimo de dos unidades para implementar una solución RAID 1. RAID 1: Mirroring and Duplexing V. 29012009 Tecnología RAID Pág. 7 Para mayor rendimiento, el controlador debe ser capaz de hacer dos lecturas separadas concurrentemente por pares de espejos o dos escrituras duplicadas por cada par de espejos. RAID 1 requiere un mínimo de 2 unidades de discos. Características/Ventajas Desventajas Una escritura o dos lecturas son posibles por pares de espejos. Puede no soportar hot swap al fallar un disco cuando la implementación es por software. El 100% de la redundancia de los datos no significa que sea necesario reconstruirlo entero en caso de que un disco falle, solo una copia del disco a reemplazar. Podemos recuperar todos los datos en caso de error en unos de los discos ya que si un disco suspende la operación el otro continua disponible. Para altas capacidades, el sistema resulta caro ya que un 50% de la inversión en discos está dedicado a la redundancia. Moderada lentitud en la escritura de datos ya que la hemos de escribir en dos localizaciones. Aplicaciones Recomendadas Este nivel es altamente confiable y optimiza el rendimiento de lectura de datos. Las aplicaciones de proceso de transacciones funcionan bien. • • • • Facturación Nominas Financieras Cualquier aplicación que requiera alta disponibilidad. RAID 0+1/ RAID 0/1 ó RAID 10: "Ambos mundos" Combinación de los arrays anteriores que proporciona velocidad y tolerancia al fallo simultáneamente. El nivel de RAID 0+1 fracciona los datos para mejorar el rendimiento, pero también utiliza un conjunto de discos duplicados para conseguir redundancia de datos. Al ser una variedad de RAID híbrida, RAID 0+1 combina las ventajas de rendimiento de RAID 0 con la redundancia que aporta RAID 1. Sin embargo, la principal desventaja es que requiere un mínimo de cuatro unidades y sólo dos de ellas se utilizan para el almacenamiento de datos. Las unidades se deben añadir en pares cuando se aumenta la capacidad, lo que multiplica por dos los costes de almacenamiento. El RAID 0+1 tiene un rendimiento similar al RAID 0 y puede tolerar el fallo de varias unidades de disco. Una configuración RAID 0+1 utiliza un número par de discos (4, 6, 8) creando dos bloques. Cada bloque es una copia exacta del otro, de ahí RAID 1, y dentro de cada bloque la escritura de datos se realiza en modo de bloques alternos, el sistema RAID 0. RAID 0+1 es una excelente solución para cualquier uso que requiera gran rendimiento y tolerancia a fallos, pero no una gran capacidad. Se utiliza normalmente en entornos V. 29012009 Tecnología RAID Pág. 8 como servidores de aplicaciones, que permiten a los usuarios acceder a una aplicación en el servidor y almacenar datos en sus discos duros locales, o como los servidores Web, que permiten a los usuarios entrar en el sistema para localizar y consultar información. Este nivel de RAID es el más rápido, el más seguro, pero por contra el más costoso de implementar. RAID 10 es ideal para sistemas de emisión critica, donde se requiera mayor confiabilidad de la información , ya que pueden fallar dos discos inclusive (uno por cada canal) y los datos todavía se mantienen en línea .Es apropiado también en escritura aleatorias pequeñas . RAID 0+1: High Data Transfer Performance RAID Nivel 0+1 requiere un mínimo de 4 unidades de disco Características/Ventajas RAID 0+1 es implementado como un espejo cuyos segmentos son RAID 0 RAID 0+1 tiene la misma tolerancia a fallos que RAID 5 RAID 0+1 tiene la misma tolerancia a fallos que un disco espejo. Desventajas RAID 0+1 no debe ser confundido con RAID 10. Un simple fallo en una unidad causara el reemplazo de todo el array, exactamente igual que en el RAID 0. Muy caro y elevada carga. Limitada escabilidad y muy alto coste. Altas velocidades de I/O son alcanzados gracias a los múltiples segmentos distribuidos. Excelente solución para sitios que necesiten alto rendimiento pero no preocupados en alcanzar la máxima seguridad. V. 29012009 Aplicaciones Recomendadas • • Aplicaciones de imágenes Servidor de ficheros. Tecnología RAID Pág. 9 RAID 10: Very High Reliability combined with High Performance RAID Level 10 requires a minimum of 4 drives to implement Características/Ventajas Desventajas RAID 10 es implementado como una matriz distribuida en la que los segmentos son matrices RAID 1. Muy caro / Alta carga Muy limitada escabilidad y un alto coste. RAID 10 la misma tolerancia a fallos que RAID nivel 1. Aplicaciones Recomendadas Altas velocidades de I/O son alcanzadas por los segmentos distribuidos de RAID 1. Bajo determinadas circunstancias, RAID 10 puede tener varios fallos simultáneos en distintas unidades. Este nivel ofrece un 100 % de redundancia de la información y un soporte para grandes volúmenes de datos, donde el precio no es un factor importante. V. 29012009 • Servidor de base de datos que requieran un alto rendimiento y tolerancia a fallos. Tecnología RAID Pág. 10 RAID 2: "Acceso paralelo con discos especializados. Redundancia a través del código Hamming" Es el primer nivel de Raid que usa código de correcciones de error utilizando la “generación Hamming” de código de error. Este nivel cuenta con varios discos para bloques de redundancia y corrección de errores. La división es a nivel de bits (el código ECC (Error Correction Code) se intercala a través de varios discos a nivel de bit.), cada byte se graba con un bit cada uno de los discos y un bit de paridad en el noveno y el acceso es simultaneo a todas las unidades tanto en operaciones de escritura como lectura. Algunos de estos discos son empleados para códigos de error, los cuales se emplean para referencias de los datos en caso de que falle uno de los discos. Este nivel tiene un costo bastante elevado ya que necesitamos muchos discos para mantener los códigos de error. Gracias a como están distribuidos los datos en los discos se consigue mejorar la velocidad de transferencia principalmente en la lectura ya que podemos emplear todos los discos en paralelo. Con un bit de paridad solo se puede detectar un único error, por lo que si esta interesado en la recuperación de mas errores son necesarios mas discos adicionales. Sistemas de nueve discos. Estos discos aunque proporcionen un buen rendimiento no son muy empleados ya que los niveles 1 –3 – 5 proporcionan una mayor relación costo/rendimiento. RAID 2 no ha sido apenas implementado en productos comerciales, lo que también es debido a que requiere características especiales en los discos y no usa discos estándares. Está diseñado para ser utilizado con discos que carecen de detección de error interna (discos antiguos). Todos los discos SCSI soportan detección de error interna, por lo que este nivel de RAID tiene muy poca utilidad práctica para esos modelos de discos. Debido a que es esencialmente una tecnología de acceso paralelo, RAID 2 está más indicado para aplicaciones que requieran una alta tasa de transferencia y menos conveniente para aquellas otras que requieran una alta tasa de demanda I/O. RAID 2: Hamming Code ECC V. 29012009 Tecnología RAID Pág. 11 Cada bit de una palabra es escrito a una unidad de disco de datos (4 en este ejemplo: 0 a 3). Cada palabra tiene un código Hamming ECC grabada en el disco ECC. Al leerse, el código ECC verifica que el dato sea correcto o corrige el error en un disco. Características/Ventajas Desventajas Corrección de errores en el mismo momento. Solución cara, ya que requeriremos mucho disco para guardar los códigos de error. Son posibles altísimas velocidades de transferencia de datos. Diseño del controlador relativamente sencillo en comparación con los niveles RAID 3,4 y 5 Tiempo de escritura de datos bastante lentos, incluso aunque los datos se separen en los diferentes discos Elevado coste. Se emplea para mejorar la velocidad de transferencia. No existen implementaciones comerciales por no ser muy viable. Podemos recuperar los datos gracias a los discos de código de error. RAID 3: "Acceso síncrono con un disco dedicado a paridad" Conocido también como Striping con paridad dedicada. Dedica un único disco al almacenamiento de información de paridad. La información de ECC (Error Checking and Correction) se usa para detectar errores. La recuperación de datos se consigue calculando el O exclusivo (XOR) de la información registrada en los otros discos. La operación I/O accede a todos los discos al mismo tiempo, por lo cual el RAID 3 es mejor para sistemas de un sólo usuario con aplicaciones que contengan grandes registros. RAID 3 ofrece altas tasas de transferencia, alta fiabilidad y alta disponibilidad, a un coste intrínsicamente inferior que un Mirroring (RAID 1). Sin embargo, su rendimiento de transacción es pobre porque todos los discos del conjunto operan al unísono. Los datos se dividen en fragmentos que se transfieren a los discos que funcionan en paralelo, lo que permiten enviar más datos de una sola vez, y aumentar en forma sustancial la velocidad general de transferencia de datos. Esta ultima característica convierte a este nivel en idóneo para que estas aplicaciones que requieran la transferencia de grandes ficheros contiguos hacia y desde el ordenador central. Resultan mas adecuados para sistemas en los que trasfieren grandes cantidades de datos secuencialmente, ejemplo audio, video. Para estos es el nivel Raid más eficiente ya que nunca es necesario leer modificar, escribir el bloque de paridad. Es menos apropiado para el tipo de acceso de base de datos en los cuales se necesitan transferir pequeñas unidades de datos de manera aleatoria. V. 29012009 Tecnología RAID Pág. 12 No obstante en aquellos entornos en los que muchos usuarios desean leer y escribir múltiple registros aleatorios, las peticiones de operaciones de entrada/salida simultáneas pueden sobrecargar y ralentizar el sistema. En el nivel 3 de Raid los discos participan en cada transacción, atendiendo cada petición de Entrada/Salida de una en una. Por consiguiente el nivel 3 de Raid no es una opción adecuada para operaciones transaccionales, en la que la mayor parte del tiempo se emplea en buscar pequeños registros esparcidos aleatoriamente en los discos. Se necesita un mínimo de tres unidades para implementar una solución RAID 3. RAID 3: Parallel transfer with parity The data block is subdivided ("striped") and written on the data disks. Stripe parity is generated on Writes, recorded on the parity disk and checked on Reads. RAID 3 requiere un mínimo de 3 unidades de disco. Características/Ventajas Desventajas Muy alta velocidad en lectura y escritura de datos. Diseño de controlador bastante compleja. Un fallo en un disco tiene un insignificante impacto en la transferencia. Si perdemos el disco de paridad perdemos toda la información redundante que teníamos Tipo de escritura de datos bastante lento. Una baja velocidad del disco ECC (Parity) al disco de datos implica una alta eficiencia. Aplicaciones Recomendadas Gracias al disco de paridad podemos recuperar datos. V. 29012009 • • • Edición de video. Edición de imágenes. Servidores de aplicación. Tecnología RAID Pág. 13 RAID 53: High I/O Rates and Data Transfer Performance RAID 53 requiere un mínimo de 5 unidades de disco. Características/Ventajas Desventajas RAID 53 debería realmente llamarse "RAID 03" porque implementa una matriz distribuida (RAID 0) cuyos segmentos son RAID 3. Muy caro de implementar. RAID 53 tiene la misma tolerancia a fallos que RAID 3. Altas velocidades de transferencia son alcanzadas gracias a los segmentos de RAID 3. Altas velocidades de I/O para pequeñas solicitudes son alcanzadas gracias a la segmentación de RAID 0. V. 29012009 La distribución en Bytes empobrece la utilización de la capacidad formateada. Tecnología RAID Pág. 14 RAID 4: "Acceso Independiente con un disco dedicado a paridad." Basa su tolerancia al fallo en la utilización de un disco dedicado a guardar la información de paridad calculada a partir de los datos guardados en los otros discos. En caso de avería de cualquiera de las unidades de disco, la información se puede reconstruir en tiempo real mediante la realización de una operación lógica de O exclusivo. Debido a su organización interna, este RAID es especialmente indicado para el almacenamiento de ficheros de gran tamaño, lo cual lo hace ideal para aplicaciones gráficas donde se requiera, además, fiabilidad de los datos. El nivel 4 de Raid es preferible al nivel 2 de Raid para pequeños bloques de datos, por que en este nivel, los datos son distribuidos por sectores y no por bits .Otra ventaja del nivel 4 de RAID frente a los niveles 2 y 3 es que al mismo tiempo puede estar activa mas de una operación de lectura escritura sobre el conjunto de discos. La ventaja con el RAID 3 está en que se puede acceder a los discos de forma individual. RAID 4 se diferencia de RAID 3 en que mientras el primero guarda datos en bandas de un sector a la vez, RAID 3 lo hace en bandas de un byte a la vez. Se necesita un mínimo de tres unidades para implementar una solución RAID 4. RAID 4: Independent Data disks with shared Parity disk Each entire block is written onto a data disk. Parity for same rank blocks is generated on Writes, recorded on the parity disk and checked on Reads. RAID 4 requiere un mínimo de 3 unidades de disco. Características/Ventajas Desventajas Alta velocidad de lectura en transacciones. Diseño del controlador bastante complejo. Buen rendimiento en las escrituras de datos. Worst Write transaction rate and Write aggregate transfer rate Tiene integridad de datos. Si perdemos el disco de paridad, perdemos toda la información redundante que teníamos. Menor rendimiento en las lecturas de datos. V. 29012009 Tecnología RAID Pág. 15 RAID 5: "Acceso independiente con paridad distribuida." Este array ofrece tolerancia al fallo, pero además, optimiza la capacidad del sistema permitiendo una utilización de hasta el 80% de la capacidad del conjunto de discos. Esto lo consigue mediante el cálculo de información de paridad y su almacenamiento alternativo por bloques en todos los discos del conjunto. La información del usuario se graba por bloques y de forma alternativa en todos ellos. De esta manera, si cualquiera de las unidades de disco falla, se puede recuperar la información en tiempo real, sobre la marcha, mediante una simple operación de lógica de O exclusivo, sin que el servidor deje de funcionar. Así pues, para evitar el problema de cuello de botella que plantea el RAID 4 con el disco de comprobación, el RAID 5 no asigna un disco específico a esta misión sino que asigna un bloque alternativo de cada disco a esta misión de escritura, es decir, RAID 5 guarda la paridad del dato dentro de los discos y no hace falta un disco para guardar dichas paridades. Al distribuir la función de comprobación entre todos los discos, se disminuye el cuello de botella y con una cantidad suficiente de discos puede llegar a eliminarse completamente, proporcionando una velocidad equivalente a un RAID 0. RAID 5 es el nivel de RAID más eficaz y el de uso preferente para las aplicaciones de servidor básicas para la empresa. Comparado con otros niveles RAID con tolerancia a fallos, RAID 5 ofrece la mejor relación rendimiento-coste en un entorno con varias unidades. Gracias a la combinación del fraccionamiento de datos y la paridad como método para recuperar los datos en caso de fallo, constituye una solución ideal para los entornos de servidores en los que gran parte del E/S es aleatoria, la protección y disponibilidad de los datos es fundamental y el coste es un factor importante. Este nivel de array es especialmente indicado para trabajar con sistemas operativos multiusuarios. Los niveles 4 y 5 de RAID pueden utilizarse si se disponen de tres o más unidades de disco en la configuración, aunque su resultado óptimo de capacidad se obtiene con siete o más unidades. RAID 5 es la solución más económica por megabyte, que ofrece la mejor relación de precio, rendimiento y disponibilidad para la mayoría de los servidores. Es recomendable para aplicaciones intensas de entrada/salida y lectura/escritura, tal como procesamiento de transacciones. Se necesita un mínimo de tres unidades para implementar una solución RAID 5. RAID 5: Independent Data disks with distributed parity blocks Each entire data block is written on a data disk; parity for blocks in the same rank is generated on Writes, recorded in a distributed location and checked on Reads. V. 29012009 Tecnología RAID Pág. 16 RAID 5 requiere un mínimo de 3 unidades de disco. Características/Ventajas Desventajas Alta velocidad de lectura en transacciones. Un fallo en un disco tiene un medio impacto en la transferencia. Media velocidad de escritura en transacciones. Diseño del controlador complejo. Alto rendimiento en aplicaciones de velocidad de demanda interactiva. El rendimiento en las escrituras de datos es bajo. Costo efectivo. No desaprovecha un disco exclusivamente para paridad. No aumenta el rendimiento en las aplicaciones, aunque la velocidad de transferencia de datos es alta. Se pueden recuperar datos. Aplicaciones Recomendadas • • • • V. 29012009 Servidor de ficheros y aplicaciones. Servidor de Base de Datos. Servidores web, Email. Servidores Intranets Tecnología RAID Pág. 17 RAID 6: "Acceso independiente con doble paridad" Similar al RAID 5, pero incluye un segundo esquema de paridad distribuido por los distintos discos y por tanto ofrece tolerancia extremadamente alta a los fallos y a las caídas de disco, ofreciendo dos niveles de redundancia. Hay pocos ejemplos comerciales en la actualidad, ya que su coste de implementación es mayor al de otros niveles RAID, ya que las controladoras requeridas que soporten esta doble paridad son más complejas y caras que las de otros niveles RAID. Así pues, comercialmente no se implementa. RAID 6: Independent Data disks with two independent distributed parity schemes Características/Ventajas Desventajas RAID 6 es esencialmente una extensión de RAID 5 que permite tolerancia a fallos adicional usando un segundo esquema de paridad independiente. Diseño del controlador complejo. RAID 6 proporciona una extremada tolerancia a fallos y puede soportar varios errores de disco simultáneos. Solución perfecta para aplicaciones críticas. Podemos recuperar diversos errores simultáneamente. Nivel de integridad muy elevado solución perfecta para aplicaciones criticas. V. 29012009 Requiere N+2 unidades para la implementación debido a las 2 dimensiones que se usan para la paridad. El rendimiento en escritura de datos es bastante lento. No se dispone de muchas implementaciones comerciales en el nivel de Raid 6. Tecnología RAID Pág. 18 RAID 7: Optimized Asynchrony for High I/O Rates as well as High Data Transfer Rates Architectural Features: • • • • • • • • • • All I/O transfers are asynchronous, independently controlled and cached including host interface transfers All reads and write are centrally cached via the high speed x-bus Dedicated parity drive can be on any channel Fully implemented process oriented real time operating system resident on embedded array control microprocessor Embedded real time operating system controlled communications channel Open system uses standard SCSI drives, standard PC buses, motherboards and memory SIMMs High speed internal cache data transfer bus (X-bus) Parity generation integrated into cache Multiple attached drive devices can be declared hot standbys Manageability: SNMP agent allows for remote monitoring and management Características/Ventajas Desventajas Overall write performance is 25% to 90% better than single spindle performance and 1.5 to 6 times better than other array levels One vendor proprietary solution Host interfaces are scalable for connectivity or increased host transfer bandwidth Small reads in multi user environment have very high cache hit rate resulting in near zero access times Write performance improves with an increase in the number of drives in the array Access times decrease with each increase in V. 29012009 Extremely high cost per MB Very short warranty Not user serviceable Power supply must be UPS to prevent loss of cache data Tecnología RAID Pág. 19 the number of actuators in the array No extra data transfers required for parity manipulation RAID 7 is a registered trademark of Storage Computer Corporation. OTROS SISTEMAS RAID: Raid 30 Es ideal para aplicaciones no interactiva, tal como señales de grafico e imágenes. Se conoce también como Striping de arreglos de paridad dedicada. La información es distribuida a través de los discos, como en Raid 0 y utiliza paridad dedicada, como Raid 3, en un segundo canal, requiere mínimo 6 discos. Ventajas: - Proporciona una alta confiabilidad igual que el Raid 10 ya que también es capaz de tolerar dos fallas físicas en canales diferentes, manteniendo la información disponible. Ambientes donde implementarlo: Raid 30 es mejor para aplicaciones no interactivas, tal como señales de video, gráficos, que procesan secuencialmete grandes archivos y requieren alta velocidad y disponibilidad. Raid 50 Esta diseñado para aplicaciones que requieren un almacenamiento altamente confiable una elevada tasa de lectura y un buen rendimiento en la transferencia de datos con un nivel de Raid 50 , la información se reparte en los discos y se usa paridad distribuida , por eso se conoce como Striping de arreglo de paridad distribuidas .Se requiere mínimo 6 discos Ventajas: - Se logra confiabilidad de la información, un buen rendimiento en general, y además soporta grandes volúmenes de datos. Igualmente si dos discos sufren fallas físicas en diferentes canales, la información no se pierde. Ambientes donde implementarlo: Raid 50 es ideal para aplicaciones que requieran un almacenamiento altamente confiable, una elevada tasa de lectura , y un buen rendimiento en la transferencia de datos .A este nivel se encuentran aplicaciones de oficina con muchos usuarios accediendo a pequeños archivos, al igual que procesamiento de transacciones. V. 29012009 Tecnología RAID Pág. 20 Tipos de RAID Existen dos tipos de tecnología RAID: basada en software y basada en hardware. Cada uno de ellos tiene sus ventajas y sus inconvenientes. A su vez, el RAID basado en hardware puede ser basado en host o RAID externo. La ventaja de los RAID basados en hardware es su independencia de la plataforma o sistema operativo, ya que son vistos por éste como un gran disco duro más, y además son mucho más rápidos, entre otras ventajas. Los sistemas RAID software no son implementaciones adecuadas en la mayoría de los casos, y cada vez son menos empleados. El software RAID puede ser una opción apropiada cuando el factor de decisión es el coste inicial. Sin embargo, cuando se considera el coste total de propiedad, los costes ocultos del software RAID pueden convertirlo en la opción más cara a largo plazo. Este coste más elevado de propiedad del RAID basado en software, es debido a la productividad más baja del usuario, costes más altos de gestión y reconfiguración. Sistemas operativos de redes como NetWare y Windows NT incluyen software RAID integrado. Todas las funciones RAID son manejadas por la CPU, lo que puede ralentizar en exceso otras aplicaciones. Este tipo de RAID no ofrece protección para el sistema operativo, a menos que se añada una unidad adicional a la matriz. Además, el RAID basado en software no cuenta con importantes características, como el intercambio de unidades de repuesto en funcionamiento, matrices de arranque y funciones de gestión remota. La utilización excesiva de la CPU es su principal inconveniente. Las soluciones RAID dependen del software para controlar la matriz. Sin embargo, las matrices basadas en software ejecutan todos los comandos de E/S y los algoritmos con numerosas operaciones matemáticas en la CPU del host. Esto puede ralentizar el rendimiento del sistema, ya que aumenta el tráfico del bus PCI del host y la utilización e interrupciones de la CPU. El uso del software RAID puede degradar el rendimiento del sistema hasta un nivel en el que resulta más costoso actualizar. A diferencia de las matrices basadas en software, las que están basadas en hardware utilizan controladores RAID que se conectan a una ranura PCI del host. Con tan sólo una diferencia mínima de precio con respecto al coste del controlador que se necesita para el software RAID, el hardware RAID ofrece ventajas significativas en lo que respecta a: • Rendimiento • Integridad de los datos • Gestión de matrices El hardware RAID basado en host supone un mayor rendimiento que el RAID basado en software, sin embargo la solución más profesional y de gama alta es la solución hardware RAID externa. En este caso, las operaciones RAID se llevan a cabo mediante un controlador situado en el subsistema de almacenamiento RAID externo, que se conecta al servidor mediante un adaptador de bus de host SCSI o Fibre Channel. Las soluciones RAID externas son independientes del sistema operativo, aportan mayor flexibilidad y permiten crear sistemas de almacenamiento de gran capacidad para servidores de gama alta. La mayoría de los Sistemas Operativos de Red modernos (Windows NT, Netware, Solaris, SCO Unix, etc.), tienen capacidad de manejar algunos de los niveles antes mencionados de RAID (Sistemas RAID basados en software), pero cuando se buscan altos niveles de seguridad en la redundancia de la información almacenada, se recurre a Sistemas RAID basados en hardware. Además de ser más seguras, las soluciones RAID basadas en hardware son también más rápidas que las soluciones basadas en software. V. 29012009 Tecnología RAID Pág. 21 El Disk Array y el Back-Up Un Disk Array nos brinda seguridad de trabajo con nuestros datos, ya que en caso que falle algún componente o de hecho, se dañe alguno de los discos rígidos, el Sistema seguirá funcionando ininterrumpidamente y Ud. no perderá sus datos -dependiendo de los niveles de seguridad que Ud. haya elegido-. Sin embargo, tener los datos en un Sistema Disk Array no significa que los datos estén resguardados. El resguardo de datos se hace para que sea lo que fuere que ocurra con nuestros discos rígidos, ya sean fallas del hardware, errores o siniestros -como robo, incendio, inundaciones, boicot, error humano, derrumbes en el edificio donde esté el sistema, etc.- que provoquen la pérdida parcial o total de nuestros datos; tengamos una copia de los datos de el día anterior o por lo menos de una semana atrás. Esa copia es el backup, que debe realizarse sobre una cinta o un medio óptico, y debe guardarse en un lugar físico distinto y alejado de donde se encuentran los discos. Entonces un Sistema Disk Array requiere indefectiblemente el Back-up. V. 29012009 Tecnología RAID Pág. 22 GLOSARIO DE TÉRMINOS A________________________________ ASP: Aplication Service Providers (Proveedor de Servicios de Aplicaciones). Modelo de negocio de software que se centra en el alquiler de las aplicaciones (sistemas ERP, soluciones CRM, aplicaciones verticales, aplicaciones ofimáticas, etc.) utilizando Internet como canal de distribución, encargándose el ASP del almacenamiento de dichas aplicaciones (Application Hosting) y de la administración, soporte, mantenimiento y seguridad de la información y/o datos del cliente, el cual se despreocupa de la infraestructura de sus sistemas informáticos y se centra en el negocio objeto de su actividad principal. D________________________________ DAS: Direct Attached Storage. Es el método tradicional de almacenamiento y el más sencillo. Consiste en conectar el dispositivo de almacenamiento directamente al servidor o estación de trabajo, es decir, físicamente conectado al dispositivo que hace uso de él. F_________________________________ Fibre Channel: Es un estándar de conexión de alto rendimiento diseñado para realizar comunicaciones bidireccionales de datos en serie entre servidores, subsistemas de almacenamiento masivo y periféricos, a través de concentradores, conmutadores y conexiones punto a punto. Fibre Channel proporciona conectividad de larga distancia y el ancho de banda necesario para transferir de forma eficaz grandes archivos de datos entre el servidor y los sistemas de almacenamiento. Desaparecen las limitaciones de SCSI. Resulta ideal para redes SAN, grupos de ordenadores y otras configuraciones informáticas en las que existe un flujo de datos intensivo. El Fibre Channel puede ir tanto sobre cable de cobre como en fibra óptica. H________________________________ Host: Ordenador "servidor" en red que provee servicios y/o aplicaciones a otros ordenadores. Host Bus Adapter (HBA): Adaptador de bus de host. Localizado dentro de un servidor (conectado en el bus del host) permite la comunicación entre el mismo y los equipos, periféricos y/o componentes del sistema. Los HBA pueden utilizar diferentes protocolos: SCSI, Fibre Channel, etc. Los host bus adapters Fibre Channel permiten conectar los servidores a la SAN y dispositivos Fibre Channel. V. 29012009 Tecnología RAID Pág. 23 Hot Swap: Habilidad de sustituir un dispositivo o componente defectuoso de un sistema y reemplazarlo por otro sin apagar el sistema y sin interferir en las funciones de otros dispositivos. También llamado "cambio en caliente". J_________________________________ JBOD: Just a bunch of disks. Conjunto de discos. N________________________________ NAS: Network Attached Storage. El dispositivo de almacenamiento NAS se conecta a una red local (LAN), normalmente Ethernet, y dispone de una dirección IP propia. Con un único NAS se proporciona capacidad de almacenamiento para múltiples servidores. R________________________________ RAID: Acrónimo del inglés "Redundant Array of Independent Disks". Significa matriz redundante de discos independientes. RAID es un método de combinación de varios discos duros para formar una única unidad lógica en la que se almacenan los datos de forma redundante. Ofrece mayor tolerancia a fallos y más altos niveles de rendimiento que un sólo disco duro o un grupo de discos duros independientes. S________________________________ SAN (Storage Area Network) es una red independiente de almacenamiento de altas prestaciones basada en tecnología Fibre Channel. Su función es centralizar el almacenamiento de los ficheros en una red de alta velocidad y máxima seguridad. Es una solución global donde se comparte todo el área de almacenamiento corporativo. Más información de la tecnología Fibre Channel/ SAN. SCSI (pronunciado "escasi"): son las siglas de Small Computer Systems Interface. Interfaz de alta velocidad. El bus SCSI es el más empleado en los servidores de datos para la conexión de dispositivos de almacenamiento mediante la instalación de una tarjeta SCSI. Sus principales limitaciones son el ancho de banda, la longitud física del bus y el número de dispositivos que pueden conectarse (hasta 15). SNIA: Storage Networking Industry Association. Asociación internacional que concentra su actividad en las tecnologías asociadas a las redes de almacenamiento. El propósito de la organización es desarrollar estándares abiertos que permitan desarrollar tecnologías realmente útiles, eficientes y fiables para el sector del almacenamiento. El SNIA representa un punto de encuentro entre los fabricantes de productos de almacenamiento y networking, junto a integradores de sistemas, fabricantes de aplicaciones y proveedores de servicios. Está formado por numerosas empresas, entre las que se encuentran las principales compañías informáticas del mundo. Su fundación data del año 1997 en Estados Unidos, pero en Europa su presencia es más reciente, V. 29012009 Tecnología RAID Pág. 24 desde diciembre del año 2000. SM DATA es la primera empresa tecnológica nacional que se convierte en miembro activo del foro, y ha sido admitida por su especialización tecnológica en el sector del almacenamiento y su know how técnico. SSP: Storage Service Provider. Centros proveedores de capacidad de almacenamiento a sus clientes. V. 29012009