arquitectura de invulnerabilidad de datos de emc data

Anuncio
Informe
ARQUITECTURA DE INVULNERABILIDAD DE
DATOS DE EMC DATA DOMAIN: MEJORA DE
LA CAPACIDAD DE RECUPERACIÓN Y LA
INTEGRIDAD DE LOS DATOS
Análisis detallado
Resumen
Ningún mecanismo por sí mismo es suficiente para garantizar la
integridad de los datos en un sistema de almacenamiento. La
capacidad de recuperación de datos solo se puede garantizar
mediante la cooperación de una gran cantidad de mecanismos
que establecen líneas de defensa contra todos los orígenes de
errores. A diferencia de los sistemas de almacenamiento de uso
general, los sistemas de almacenamiento con deduplicación EMC®
Data Domain® han sido diseñados específicamente como el
almacenamiento del último recurso. Los sistemas de
almacenamiento Data Domain priorizan la recuperación sobre
todo lo demás, con funcionalidades de protección de la integridad
de los datos incorporadas mediante la arquitectura de
invulnerabilidad de datos de EMC Data Domain. Este informe se
centra en cuatro elementos clave de la arquitectura de
invulnerabilidad de datos de Data Domain, que, al combinarse,
proporcionan los mayores niveles de capacidad de recuperación e
integridad de datos del sector:
•
Verificación de punto a punto
•
Evasión y contención de fallos
•
Detección de fallos y reparación continuas
•
Capacidad de recuperación del sistema de archivos
septiembre 2013
Copyright © 2013 EMC Corporation. Todos los derechos
reservados.
EMC considera que la información de esta publicación es
precisa en el momento de su publicación. La información
está sujeta a cambios sin previo aviso.
La información contenida en esta publicación se proporciona
“tal como está”. EMC Corporation no se hace responsable ni
ofrece garantía de ningún tipo con respecto a la información
de esta publicación y específicamente renuncia a toda
garantía implícita de comerciabilidad o capacidad para un
propósito determinado.
El uso, la copia y la distribución de cualquier software de
EMC descrito en esta publicación requieren una licencia de
software correspondiente.
Para obtener una lista actualizada de nombres de productos
de EMC, consulte las marcas comerciales de EMC Corporation
en http://spain.EMC.com.
Número de referencia h7219-3.1
Arquitectura de invulnerabilidad de datos de EMC Data Domain
2
Índice
Resumen ................................................................................................................. 4
Integridad de datos del sistema de almacenamiento.......................................................... 4
Introducción............................................................................................................ 4
Audiencia ........................................................................................................................... 4
Arquitectura de invulnerabilidad de datos de Data Domain ...................................... 5
Verificación de punto a punto............................................................................................. 5
Evasión y contención de fallos ........................................................................................... 6
Los datos nuevos nunca sobrescriben los datos correctos ............................................. 6
Menos estructuras de datos complejas............................................................................. 6
NVRAM para un reinicio seguro y rápido ........................................................................... 7
Sin escrituras parciales de fracciones ............................................................................... 7
Detección de fallos y reparación continuas ........................................................................... 8
RAID 6: Protección contra fallos de dos discos y corrección de errores de lectura ........... 8
Detección y corrección de errores de manera inmediata ................................................. 8
Limpieza para impedir que se dañen los datos ............................................................... 9
Capacidad de recuperación del sistema de archivos .......................................................... 9
Formato de datos autodescriptivo para garantizar la capacidad de recuperación de
los metadatos ................................................................................................................ 9
La comprobación de FS, en caso de ser necesaria, es rápida ........................................ 10
Conclusiones ........................................................................................................ 10
Arquitectura de invulnerabilidad de datos de EMC Data Domain
3
Resumen
Integridad de datos del sistema de almacenamiento
Detrás de todo el valor añadido, los sistemas de almacenamiento especializados
se basan en componentes computacionales de propósito general y herramientas
de software que pueden presentar errores. Algunos fallos tienen un impacto
visible e inmediato, por ejemplo, el fallo total de una unidad de disco. Otros fallos
son sutiles y están ocultos, por ejemplo, un error de software que provoca daños
latentes en el sistema de archivos que solo se descubren en el momento de la
lectura. Para garantizar la integridad de los datos ante dichos fallos, los mejores
sistemas de almacenamiento incluyen varias comprobaciones de integridad de
los datos y, generalmente, cuentan con características optimizadas de
rendimiento y disponibilidad del sistema, no de invulnerabilidad de los datos. En
el análisis final, suponen que todas las copias de seguridad se efectúan, y
presentan disyuntivas relacionadas con el diseño que priorizan la velocidad con
respecto a la capacidad de recuperación de datos garantizada. Por ejemplo,
ningún sistema de archivos de almacenamiento primario de uso general lee datos
desde el disco para garantizar que se hayan almacenado correctamente, pues, si
lo hiciera, afectaría el rendimiento. Sin embargo, los datos no se pueden
considerar invulnerables si no se almacenan correctamente en primer lugar. Con
los dispositivos especialmente diseñados para copia de seguridad, se debe
priorizar la invulnerabilidad de los datos sobre el rendimiento e incluso sobre la
disponibilidad. A menos que el interés se centre en la integridad de los datos, los
datos de copia de seguridad y de archivo están expuestos a riesgo. Si los datos
están expuestos a riesgo, cuando se pierde la copia primaria de los datos, la
recuperación también se encuentra expuesta a riesgo. La mayoría de los
dispositivos especialmente diseñados para copia de seguridad son simplemente
sistemas de almacenamiento primario creados a partir de discos más
económicos. Por lo tanto, heredan la filosofía de diseño de sus antecesores de
almacenamiento primario. Si bien se etiquetan como dispositivos especialmente
diseñados para copia de seguridad, sus diseños destacan el rendimiento a costa
de la invulnerabilidad de los datos.
Introducción
Este informe se centra en cuatro elementos clave de la arquitectura de
invulnerabilidad de datos de EMC® Data Domain®, que, al combinarse,
proporcionan los mayores niveles del sector en cuanto a capacidad de recuperación
e integridad de los datos.
Audiencia
Este informe está orientado a los clientes de EMC, los consultores técnicos, los
socios y los miembros de la comunidad de servicios profesionales de EMC y de
socios que estén interesados en obtener más información acerca de la
arquitectura de invulnerabilidad de datos de Data Domain.
Arquitectura de invulnerabilidad de datos de EMC Data Domain
4
Arquitectura de invulnerabilidad de datos de Data Domain
Los sistemas de almacenamiento con deduplicación Data Domain representan un
claro desprendimiento del pensamiento de diseño convencional de sistemas de
almacenamiento y presentan una premisa radical: ¿qué ocurriría si la capacidad de
recuperación y la integridad de los datos fueran el objetivo más importante? Si uno
imaginara un departamento de TI sin cintas, tendría que imaginar un
almacenamiento en disco sumamente resistente y protector. Los sistemas Data
Domain se han diseñado desde el principio como almacenamiento de último
recurso. El sistema operativo Data Domain (DD OS) está especialmente diseñado
para la invulnerabilidad de los datos. Existen cuatro áreas de enfoque importantes:
•
Verificación de punto a punto
•
Evasión y contención de fallos
•
Detección de fallos y reparación continuas
•
Capacidad de recuperación del sistema de archivos
Incluso con este modelo, resulta importante recordar que DD OS es simplemente tan
bueno como los datos que recibe. Puede realizar una prueba de punto a punto de los
datos que recibe dentro de los límites del sistema, pero DD OS no puede saber si
esos datos estuvieron protegidos durante cada paso de la red en su trayecto hacia el
sistema. Si se produce un error en la red que ocasiona daños en los datos o si los
datos se dañan en el almacenamiento primario, DD OS no puede repararlos.
Recomendamos probar la recuperación a nivel de aplicaciones de manera periódica.
Verificación de punto a punto
Dado
que
todos
los
componentes de un sistema de
almacenamiento
pueden
introducir errores, la manera
más sencilla de garantizar la
integridad de los datos es
realizar una prueba de punto a
punto. La verificación de punto
a punto implica leer los datos
después de que se escriben y
compararlos con los que se
enviaron al disco, con lo que se
comprueba que es posible
acceder a ellos en el disco por
medio del sistema de archivos y Figura 1. La comprobación de punto a punto
que no están dañados. Cuando verifica todos los datos y metadatos del sistema
DD OS recibe una solicitud de de archivos.
escritura del software de copia
de seguridad, computa una suma de verificación para los datos. Luego, el sistema
almacena los datos exclusivos y los vuelve a leer para validarlos, con lo que se
corrigen de inmediato los errores de E/S. Debido a que los datos se validan
después de la escritura a disco y antes de su liberación de la memoria/NVRAM, la
corrección de los errores de E/S no requiere un reinicio del trabajo de copia de
seguridad.
Arquitectura de invulnerabilidad de datos de EMC Data Domain
5
La verificación de punto a punto confirma que los datos sean correctos y puedan
recuperarse desde cualquier nivel del sistema. Si existen problemas en cualquier
parte del trayecto (por ejemplo, si se han perdido algunos datos en la unidad), se
detectarán. Los errores también se pueden corregir mediante un proceso de
autorreparación, como se describe en la sección siguiente. Los sistemas de
almacenamiento primario convencionales no pueden realizar este tipo de
verificaciones tan exigentes. No obstante, los dispositivos especialmente
diseñados para copia de seguridad las requieren. La gran reducción de datos que
se logra mediante Data Domain Global Compression™ disminuye la cantidad de
datos que se deben verificar y posibilita la realización de estas verificaciones.
Evasión y contención de fallos
El próximo paso para la protección
de datos es garantizar que los datos
que se confirmaron como correctos
lo sigan siendo. Paradójicamente, el
mayor riesgo en cuanto a la
integridad del sistema de archivos
son los errores de software del
sistema de archivos en el momento
de escribir datos nuevos. Solo las
nuevas
escrituras
pueden
sobrescribir accidentalmente los
datos existentes y solo las nuevas Figura 2. Los datos nuevos nunca ponen en riesgo
actualizaciones de metadatos del los datos antiguos. El log contenedor de datos nunca
sistema de archivos pueden dañar sobrescribe ni actualiza los datos existentes. Los
las estructuras existentes. Dado que datos nuevos siempre se escriben en nuevos
el objetivo principal del sistema de contenedores (en rojo). Las referencias y los
archivos Data Domain es proteger contenedores antiguos permanecen en su lugar y
los datos, su diseño ofrece están seguros, incluso, ante errores de software o
hardware que puedan producirse durante el
protección incluso contra errores de almacenamiento de las copias de seguridad nuevas.
su propio software que puedan
poner en riesgo los datos existentes. Esto se logra por medio de una combinación
de simplicidad en el diseño (que, en primer lugar, reduce la posibilidad de errores),
además de diversas características de contención de errores que dificultan la
posibilidad de que los errores de software dañen los datos existentes. Los sistemas
Data Domain cuentan con un sistema de archivos especializado y estructurado en
logs que ofrece cuatro beneficios importantes.
Los datos nuevos nunca sobrescriben los datos correctos
A diferencia de los sistemas de archivos tradicionales, que, generalmente,
sobrescriben bloques cuando se modifican datos, los sistemas Data Domain solo
escriben en bloques nuevos. Esto aísla cualquier sobrescritura incorrecta (un tipo
de problema de error de software) a los datos de copia de seguridad y archivo más
nuevos exclusivamente. Las versiones anteriores permanecen seguras.
Menos estructuras de datos complejas
En un sistema de archivos tradicional, existen muchas estructuras de datos (por
ejemplo, recuentos de referencia y mapas de bits de bloques libres) que admiten
actualizaciones de bloques muy rápidas. En una aplicación de copia de seguridad, la
Arquitectura de invulnerabilidad de datos de EMC Data Domain
6
carga de trabajo consta principalmente de escrituras secuenciales más simples de
datos nuevos, lo que implica que se requieren menos estructuras de datos para
admitirla. En tanto el sistema pueda hacer un seguimiento del encabezado del log,
las escrituras nuevas no afectarán a los datos antiguos. Esta simplicidad de diseño
reduce considerablemente las posibilidades de errores de software que pueden
ocasionar daños en los datos.
NVRAM para un reinicio seguro y rápido
El sistema incluye un buffer de escritura RAM no volátil en el cual coloca todos los
datos que aún no están protegidos en el disco. El sistema de archivos aprovecha la
seguridad de este buffer de escritura a fin de implementar una funcionalidad de
reinicio rápida y segura. El sistema de archivos utiliza muchas comprobaciones
lógicas internas y de integridad de estructura de datos. Si se detecta un problema en
una de estas comprobaciones, el sistema de archivos se reinicia. Las
comprobaciones y los reinicios proporcionan detección y recuperación tempranas de
errores que ocasionan daños en los datos. Cuando se reinicia, el sistema de archivos
Data Domain verifica la integridad de los datos en el buffer NVRAM antes de
colocarlos en un sistema de archivos, lo que impide la pérdida de datos como
consecuencia del reinicio. Dado que NVRAM es un dispositivo de hardware
independiente, protege los datos contra errores que pueden dañar los datos en la
memoria RAM. Dado que la memoria RAM no es volátil, también ofrece protección
contra fallos en la energía. Si bien NVRAM es importante para garantizar el éxito de
las nuevas copias de seguridad, el sistema de archivos garantiza la integridad de las
copias de seguridad antiguas, incluso ante un fallo de NVRAM.
Sin escrituras parciales de fracciones
Las cabinas de discos de almacenamiento primario tradicionales, ya sean RAID 1,
RAID 3, RAID 4, RAID 5 o RAID 6, pueden perder datos antiguos si, durante una
operación de escritura, se produce un fallo en la energía que genera errores en un
disco. Esto se debe a que la reconstrucción de disco depende de que todos los
bloques en una fracción RAID sean consistentes, pero, durante una escritura de
bloque, existe una ventana de transición durante la cual la fracción no es
consistente, por lo que la reconstrucción de la fracción puede fallar y los datos
antiguos del disco con errores se pueden perder. Los sistemas de almacenamiento
empresariales ofrecen protección al respecto con fuentes de alimentación sin
interrupción o NVRAM. Sin embargo, si estas fallan debido a una interrupción
prolongada de energía, se pueden perder los datos antiguos y puede fallar
cualquier intento de recuperación. Por este motivo, los sistemas Data Domain
nunca actualizan solamente un bloque en una fracción. De acuerdo con la política
de no sobrescritura, todas las nuevas escrituras apuntan a nuevas fracciones RAID,
y esas fracciones se escriben en su totalidad 1. La verificación con posterioridad a la
escritura garantiza la consistencia de la nueva fracción. Las escrituras nuevas no
ponen en riesgo los datos existentes. Los sistemas Data Domain están diseñados
para minimizar la cantidad de errores estándares en el sistema de almacenamiento.
Si se producen errores más desafiantes, se tarda menos tiempo en encontrarlos,
corregirlos y notificar al operador.
1
El producto de gateway, que utiliza RAID externo, no puede garantizar la ausencia de escrituras parciales de fracciones.
Arquitectura de invulnerabilidad de datos de EMC Data Domain
7
Detección de fallos y reparación continuas
Independientemente de las medidas de seguridad de software que se apliquen, los
productos de hardware computacional presentan errores ocasionales por naturaleza.
De manera más visible en un sistema de almacenamiento, se pueden producir
errores en las unidades de disco, pero también se pueden producir otros errores más
localizados o transitorios. Es posible que un bloque de disco individual no se pueda
leer o que haya una alternación de bits en la interconexión de almacenamiento o en
el bus interno del sistema. Por este motivo, DD OS emplea niveles adicionales de
protección de datos para detectar fallos y recuperarse de ellos inmediatamente a fin
de garantizar resultados óptimos en las operaciones de restauración de datos.
RAID 6: Protección contra fallos de dos discos y corrección de errores de lectura
RAID 6 constituye la base de la funcionalidad de detección y reparación continuas de
fallos que ofrece Data Domain. Su eficiente arquitectura de paridad doble ofrece
ventajas significativas con respecto a
las arquitecturas convencionales, que
incluyen enfoques de paridad única
RAID 1 (espejeado), RAID 3, RAID 4 o
RAID 5. RAID 6:
•
Ofrece protección contra fallos
en dos discos.
•
Ofrece protección contra
errores de lectura de disco
durante el proceso de
reconstrucción.
•
Ofrece protección contra la
extracción del disco incorrecto
por parte del operador.
•
Garantiza la consistencia de
las fracciones RAID incluso
durante un fallo en la energía
sin depender de NVRAM ni
UPS.
•
Verifica la integridad de los
datos y la consistencia de las
fracciones después de las escrituras.
Figura 3. La funcionalidad de detección y
reparación continuas de fallos ofrece protección
contra fallos en el sistema de almacenamiento.
El sistema vuelve a comprobar periódicamente
la integridad de las fracciones RAID y el log
contenedor, y utiliza la redundancia del sistema
RAID para solucionar cualquier fallo que se
produzca. En cada una de las lecturas, se
vuelve a verificar la integridad de los datos y se
repara cualquier error de manera inmediata.
Cada bandeja incluye una unidad de repuesto global, que reemplaza
automáticamente una unidad fallida en cualquier parte del sistema Data Domain.
Cuando EMC reemplaza una unidad fallida reemplazable en caliente, esa unidad
se convierte en la nueva unidad de repuesto global. En comparación, una vez que
un solo disco deja de funcionar en los otros enfoques de RAID, cualquier otro error
de disco simultáneo genera la pérdida de datos. Todo sistema de almacenamiento
del último recurso debe incluir el nivel de protección adicional que ofrece RAID 6.
Detección y corrección de errores de manera inmediata
Para garantizar que todos los datos devueltos al usuario durante una restauración
sean correctos, el sistema de archivos Data Domain almacena todas sus estructuras
Arquitectura de invulnerabilidad de datos de EMC Data Domain
8
de datos en disco en bloques de datos con formato. Estos se identifican
automáticamente y se incluyen en una sólida suma de verificación. En cada lectura
desde el disco, el sistema, primero, verifica que el bloque leído sea el esperado.
Luego, utiliza la suma de verificación para comprobar la integridad de los datos. Si se
detecta un problema, le solicita a RAID 6 que utilice su nivel adicional de redundancia
para corregir el error en los datos. Debido a que las fracciones RAID nunca se
actualizan de manera parcial, se garantiza su consistencia, al igual que la capacidad
de reparar un error en el momento de su descubrimiento.
Limpieza para impedir que se dañen los datos
La detección de errores de manera instantánea funciona correctamente con los
datos que se leen, pero no afronta los problemas con los datos que no se leen
durante semanas o meses antes de que se requieran para una recuperación. Por
este motivo, los sistemas Data Domain vuelven a verificar activamente la integridad
de todos los datos mediante un proceso continuo que se ejecuta en segundo plano.
Este proceso de limpieza encuentra y repara de manera inteligente los errores en el
disco antes de que puedan representar un problema. Mediante la detección y la
corrección de errores de manera inmediata y la limpieza constante de datos de RAID
6, la mayoría de los errores generados en la unidad de disco y en el sistema
informático se pueden aislar y solucionar sin provocar ningún impacto en el
funcionamiento del sistema y sin riesgos para los datos.
Capacidad de recuperación del sistema de archivos
Si bien se realizan muchos esfuerzos para garantizar que no haya problemas en el
sistema de archivos, la arquitectura de invulnerabilidad de datos prevé que, al ser
creado por el hombre, cualquier sistema puede presentar un problema en cierto
momento. Por lo tanto, incluye características para reconstruir metadatos
perdidos o dañados del sistema de archivos y, asimismo, herramientas de
comprobación del sistema de archivos que pueden volver a poner en línea un
sistema con problemas de manera segura y rápida.
Formato de datos autodescriptivo para
garantizar la capacidad de
recuperación de los metadatos
Las estructuras de metadatos, como los
índices que aceleran el acceso, se
pueden reconstruir a partir de los datos
en disco. Todos los datos se
almacenan junto con los metadatos
que los describen. Si una estructura de
metadatos se daña de algún modo,
existen dos niveles de capacidad de
Figura 4. Los datos se escriben en un
formato autodescriptivo. Si es necesario,
recuperación. En primer lugar, se crea
se puede volver a crear el sistema de
una instantánea de los metadatos del
archivos mediante el análisis del log y la
sistema de archivos cada cierta
reconstrucción a partir de los metadatos
cantidad de horas, y la capacidad de
almacenados con los datos.
recuperación puede depender de esta
copia de punto en el tiempo. En segundo lugar, se pueden analizar los datos en el
disco y se puede reconstruir la estructura de metadatos. Estas funcionalidades
Arquitectura de invulnerabilidad de datos de EMC Data Domain
9
hacen posible la capacidad de recuperación incluso si se produce el peor de los
daños en el sistema de archivos o en sus metadatos.
La comprobación de FS, en caso de ser necesaria, es rápida
En un sistema de archivos tradicional, no se comprueba constantemente la
consistencia en línea. Los sistemas Data Domain realizan la comprobación
mediante una verificación inicial en línea a fin de garantizar la consistencia de
todas las escrituras nuevas. El tamaño utilizable de un sistema de archivos
tradicional, generalmente, está limitado por el tiempo que llevaría recuperar el
sistema de archivos si se produjera algún tipo de daño. Imagine la ejecución de
fsck en un sistema de archivos tradicional con más de 80 TB de datos. El motivo
por el cual el proceso de comprobación puede tardar tanto es que el sistema de
archivos debe distinguir dónde se ubican los bloques libres para que las
escrituras nuevas no sobrescriban los datos existentes de manera accidental. Por
lo general, esto implica la comprobación de todas las referencias para reconstruir
los mapas de bloques libres y los recuentos de referencia. Cuantos más datos
haya en el sistema, más tiempo tardará este proceso. Por el contrario, dado que el
sistema de archivos Data Domain nunca sobrescribe datos antiguos ni tiene que
reconstruir mapas de bloques ni recuentos de referencia, solo debe verificar
dónde se ubica el encabezado del log para volver a poner el sistema en línea de
manera segura a fin de restaurar los datos importantes.
Conclusiones
Ningún mecanismo por sí mismo es suficiente para garantizar la integridad de los
datos en un sistema de almacenamiento. La capacidad de recuperación de datos
solo se puede garantizar mediante la cooperación de una gran cantidad de
mecanismos que establecen líneas de defensa contra todos los orígenes de
errores.
A diferencia de los sistemas de almacenamiento tradicionales, cuyo propósito ha
cambiado del almacenamiento primario a la protección de datos, los sistemas
Data Domain están diseñados desde el principio específicamente para el
almacenamiento de datos de último recurso. La innovadora arquitectura de
invulnerabilidad de datos ofrece la mejor protección del sector contra los
problemas de integridad de datos. La verificación avanzada garantiza que los
nuevos datos de copia de seguridad y de archivo se almacenen correctamente. La
arquitectura estructurada en logs y sin sobrescritura del sistema de archivos Data
Domain, junto con la reiteración de escrituras de fracciones completas, garantiza
que los datos antiguos siempre estén seguros, incluso, ante posibles errores de
software ocasionados por los nuevos datos. Mientras tanto, una implementación
simple y sólida reduce la posibilidad de errores en el software, en primer lugar.
Los mecanismos mencionados ofrecen protección contra problemas durante el
almacenamiento de datos de copia de seguridad y de archivo, pero los fallos en el
almacenamiento en sí también ponen en peligro la capacidad de recuperación de
los datos. Por este motivo, la arquitectura de invulnerabilidad de datos incluye
una implementación propietaria de RAID 6 que ofrece protección contra fallos en
hasta dos discos; puede reconstruir un disco con errores, incluso si se presenta
un error de lectura de datos; y corrige errores de manera instantánea durante la
Arquitectura de invulnerabilidad de datos de EMC Data Domain
10
lectura. Asimismo, incluye un proceso de limpieza constante que busca y repara
de manera activa los fallos latentes antes de que se conviertan en un problema.
La última medida de defensa es la función de recuperación del sistema de
archivos Data Domain. El formato de datos autodescriptivo permite reconstruir los
datos de archivo, incluso si se dañan o se pierden varias estructuras de
metadatos. Además, la comprobación y la reparación rápidas del sistema de
archivos logran que hasta un sistema con docenas de terabytes de datos no esté
fuera de línea durante mucho tiempo en caso de que se presente algún tipo de
problema.
Los sistemas Data Domain son la única solución que incluye esta atención
incesante a la integridad de los datos, lo que le permite tener la máxima confianza
en su capacidad de recuperación.
Arquitectura de invulnerabilidad de datos de EMC Data Domain
11
Descargar