arquitectura de invulnerabilidad de datos de emc

Anuncio
Informe técnico
ARQUITECTURA DE INVULNERABILIDAD DE
DATOS DE EMC DATA DOMAIN: MEJORA DE
LA CAPACIDAD DE RECUPERACIÓN Y LA
INTEGRIDAD DE LOS DATOS
Análisis detallado
Resumen
Ningún mecanismo por sí mismo es suficiente para garantizar la
integridad de los datos en un sistema de almacenamiento.
La capacidad de recuperación de datos solo se puede garantizar
mediante la cooperación de una gran cantidad de mecanismos que
establecen líneas de defensa contra todos los orígenes de errores.
A diferencia de los sistemas de almacenamiento de uso general, los
sistemas de almacenamiento con deduplicación EMC® Data Domain®
han sido diseñados específicamente como el almacenamiento del
último recurso. Los sistemas de almacenamiento Data Domain
priorizan la recuperación sobre todo lo demás, con funcionalidades
de protección de la integridad de los datos incorporadas mediante la
arquitectura de invulnerabilidad de datos de EMC Data Domain. Este
informe técnico se centra en cuatro elementos clave de la
arquitectura de invulnerabilidad de datos de Data Domain, que, al
combinarse, proporcionan los mayores niveles de capacidad de
recuperación e integridad de datos del sector:
•
Verificación de punto a punto
•
Evasión y contención de fallas
•
Detección de fallas y reparación continuas
•
Capacidad de recuperación del sistema de archivos
abril 2013
Copyright © 2013 EMC Corporation. Todos los derechos
reservados.
EMC considera que la información de esta publicación es
precisa en el momento de su publicación. La información está
sujeta a cambios sin previo aviso.
LA INFORMACIÓN DE ESTA PUBLICACIÓN SE PROPORCIONA
“TAL CUAL”. EMC Corporation no se hace responsable ni ofrece
garantía de ningún tipo con respecto a la información de esta
publicación y específicamente renuncia a toda garantía
implícita de comerciabilidad o capacidad para un propósito
determinado.
El uso, la copia y la distribución de cualquier software de EMC
descrito en esta publicación requieren una licencia de software
correspondiente.
Para obtener una lista actualizada de nombres de productos de
EMC, consulte las marcas comerciales de EMC Corporation en
EMC.com (visite el sitio web de su país correspondiente).
Número de referencia h7219-3.1
Arquitectura de invulnerabilidad de datos de EMC Data Domain
2
Tabla de contenidos
Resumen ejecutivo ........................................................................................... 4
Integridad de datos del sistema de almacenamiento ....................................................... 4
Introducción .................................................................................................... 4
Público al que va dirigido ............................................................................................... 4
Arquitectura de invulnerabilidad de datos de Data Domain.................................... 5
Verificación de punto a punto ......................................................................................... 5
Evasión y contención de fallas ........................................................................................ 6
Los datos nuevos nunca sobrescriben los datos correctos............................................ 6
Menos estructuras de datos complejas ....................................................................... 7
NVRAM para un reinicio seguro y rápido ...................................................................... 7
Sin escrituras parciales de fracciones ......................................................................... 7
Detección de fallas y reparación continuas ...................................................................... 8
RAID 6: Protección contra fallas de dos discos y corrección de errores de lectura ........... 8
Detección y corrección de errores de manera inmediata ............................................... 9
Limpieza para impedir que se dañen los datos ............................................................ 9
Capacidad de recuperación del sistema de archivos ........................................................ 9
Formato de datos autodescriptivo para garantizar la capacidad de recuperación de
los metadatos .......................................................................................................... 10
La comprobación de FS, en caso de ser necesaria, es rápida ...................................... 10
Conclusiones .................................................................................................. 11
Arquitectura de invulnerabilidad de datos de EMC Data Domain
3
Resumen ejecutivo
Integridad de datos del sistema de almacenamiento
Detrás de todo el valor agregado, los sistemas de almacenamiento especializados se
basan en componentes informáticos de propósito general y herramientas de
software que pueden presentar errores. Algunas fallas tienen un impacto visible e
inmediato, por ejemplo, la falla total de una unidad de disco. Otras fallas son sutiles
y están ocultas, por ejemplo, un error de software que provoca daños latentes en el
sistema de archivos que solo se descubren en el momento de la lectura. Para
garantizar la integridad de los datos ante dichas fallas, los mejores sistemas de
almacenamiento incluyen varias comprobaciones de integridad de los datos y,
generalmente, cuentan con características optimizadas de rendimiento y
disponibilidad del sistema, no de invulnerabilidad de los datos. En el análisis final,
suponen que todos los respaldos se efectúan, y presentan disyuntivas relacionadas
con el diseño que priorizan la velocidad con respecto a la capacidad de
recuperación de datos garantizada. Por ejemplo, ningún sistema de archivos de
almacenamiento primario de uso general lee datos desde el disco para garantizar
que se hayan almacenado correctamente, pues, si lo hiciera, afectaría el
rendimiento. Sin embargo, los datos no se pueden considerar invulnerables si no se
almacenan correctamente en primer lugar. En el respaldo a disco especialmente
diseñado, se debe priorizar la invulnerabilidad de los datos sobre el rendimiento e
incluso sobre la disponibilidad. A menos que el interés se centre en la integridad de
los datos, los datos de respaldo y de archivo están expuestos a riesgo. Si los datos
están expuestos a riesgo, cuando se pierde la copia primaria de los datos, la
recuperación también se encuentra expuesta a riesgo. La mayoría de los dispositivos
de respaldo especialmente diseñados son simplemente sistemas de
almacenamiento primario creados a partir de discos más económicos. Por lo tanto,
heredan la filosofía de diseño de sus antecesores de almacenamiento primario. Si
bien se etiquetan como dispositivos de respaldo especialmente diseñados, sus
diseños destacan el rendimiento a costa de la invulnerabilidad de los datos.
Introducción
Este informe técnico se centra en cuatro elementos clave de la arquitectura de
invulnerabilidad de datos de EMC® Data Domain®, que, al combinarse, proporcionan
los mayores niveles del sector en cuanto a capacidad de recuperación e integridad
de los datos.
Público al que va dirigido
Este informe técnico está orientado a los clientes de EMC, los consultores técnicos,
los partners y los miembros de la comunidad de servicios profesionales de EMC y de
partners que estén interesados en obtener más información acerca de la
arquitectura de invulnerabilidad de datos de Data Domain.
Arquitectura de invulnerabilidad de datos de EMC Data Domain
4
Arquitectura de invulnerabilidad de datos de Data Domain
Los sistemas de almacenamiento con deduplicación Data Domain representan un
claro desprendimiento del pensamiento de diseño convencional de sistemas de
almacenamiento y presentan una premisa radical: ¿qué ocurriría si la capacidad de
recuperación y la integridad de los datos fueran el objetivo más importante? Si uno
imaginara un departamento de TI sin cintas, tendría que imaginar un
almacenamiento en disco sumamente resistente y protector. Los sistemas
Data Domain se han diseñado desde el principio como almacenamiento de último
recurso. El sistema operativo Data Domain (DD OS) está especialmente diseñado
para la invulnerabilidad de los datos. Existen cuatro áreas de enfoque críticas:
•
Verificación de punto a punto
•
Evasión y contención de fallas
•
Detección de fallas y reparación continuas
•
Capacidad de recuperación del sistema de archivos
Incluso con este modelo, resulta importante recordar que DD OS es simplemente tan
bueno como los datos que recibe. Puede realizar una prueba de punto a punto de
los datos que recibe dentro de los límites del sistema, pero DD OS no puede saber si
esos datos estuvieron protegidos durante cada paso de la red en su trayecto hacia el
sistema. Si se produce un error en la red que ocasiona daños en los datos o si los
datos se dañan en el almacenamiento primario, DD OS no puede repararlos.
Recomendamos probar la recuperación a nivel de aplicaciones de manera periódica.
Verificación de punto a punto
Dado que todos los componentes
de un sistema de almacenamiento
pueden introducir errores, la
manera más sencilla de garantizar
la integridad de los datos es
realizar una prueba de punto a
punto. La verificación de punto a
punto implica leer los datos
después de que se escriben y
compararlos con los que se
enviaron al disco, con lo que se
comprueba que es posible
acceder a ellos en el disco por
medio del sistema de archivos y Figura 1. La comprobación de punto a punto
que no están dañados. Cuando verifica todos los datos y metadatos del sistema
DD OS recibe una solicitud de de archivos.
escritura del software de respaldo,
computa una gran suma de verificación para los datos. Luego, el sistema almacena
los datos exclusivos y los vuelve a leer para validarlos, con lo que se corrigen de
inmediato los errores de I/O. Debido a que los datos se validan después de la
escritura a disco y antes de su liberación de la memoria/NVRAM, la corrección de los
errores de I/O no requiere un reinicio del trabajo de respaldo.
Arquitectura de invulnerabilidad de datos de EMC Data Domain
5
La verificación de punto a punto confirma que los datos sean correctos y puedan
recuperarse desde cualquier nivel del sistema. Si existen problemas en cualquier
parte del trayecto (por ejemplo, si se han perdido algunos datos en la unidad), se
detectarán. Los errores también se pueden corregir mediante un proceso de
autorreparación, como se describe en la sección siguiente. Los sistemas de
almacenamiento primario convencionales no pueden realizar este tipo de
verificaciones tan exigentes. No obstante, los dispositivos de respaldo
especialmente diseñados las requieren. La gran reducción de datos que se logra
mediante Data Domain Global Compression™ disminuye la cantidad de datos que
se deben verificar y posibilita la realización de estas verificaciones.
Evasión y contención de fallas
El próximo paso para la protección de
datos es garantizar que los datos que
se confirmaron como correctos lo
sigan siendo. Paradójicamente, el
mayor riesgo en cuanto a la integridad
del sistema de archivos son los
errores de software del sistema de
archivos en el momento de escribir
datos nuevos. Solo las nuevas
escrituras
pueden
sobrescribir
accidentalmente los datos existentes
y solo las nuevas actualizaciones a Figura 2. Los datos nuevos nunca ponen en
metadatos del sistema de archivos riesgo los datos antiguos. El log contenedor
pueden
dañar
las
estructuras de datos nunca sobrescribe ni actualiza los
existentes. Dado que el objetivo datos existentes. Los datos nuevos siempre
principal del sistema de archivos de se escriben en nuevos contenedores (en rojo).
Las referencias y los contenedores antiguos
Data Domain es proteger los datos, su permanecen en su lugar y están seguros,
diseño brinda protección incluso incluso, ante errores de software o hardware que
contra errores de su propio software puedan producirse durante el almacenamiento
que puedan poner en riesgo los de los respaldos nuevos.
respaldos existentes. Esto se logra por
medio de una combinación de simplicidad en el diseño (que, en primer lugar, reduce
la posibilidad de errores), además de diversas características de contención de
errores que dificultan la posibilidad de que los errores de software dañen los datos
existentes. Los sistemas Data Domain cuentan con un sistema de archivos
especializado y estructurado en logs que ofrece cuatro beneficios importantes.
Los datos nuevos nunca sobrescriben los datos correctos
A diferencia de los sistemas de archivos tradicionales, que, generalmente,
sobrescriben bloques cuando se modifican datos, los sistemas Data Domain solo
escriben en bloques nuevos. Esto aísla cualquier sobrescritura incorrecta (un tipo de
problema de error de software) a los datos de respaldo más nuevos exclusivamente.
Las versiones anteriores permanecen seguras.
Arquitectura de invulnerabilidad de datos de EMC Data Domain
6
Menos estructuras de datos complejas
En un sistema de archivos tradicional, existen muchas estructuras de datos
(por ejemplo, conteos de referencia y mapas de bits de bloques libres) que admiten
actualizaciones de bloques muy rápidas. En una aplicación de respaldo, la carga de
trabajo consta principalmente de escrituras secuenciales más simples de datos
nuevos, lo que implica que se requieren menos estructuras de datos para admitirla.
En tanto el sistema pueda rastrear el encabezado del log, las escrituras nuevas no
afectarán a los datos antiguos. Esta simplicidad de diseño reduce
considerablemente las posibilidades de errores de software que pueden ocasionar
daños en los datos.
NVRAM para un reinicio seguro y rápido
El sistema incluye un buffer de escritura RAM no volátil en el cual coloca todos los
datos que aún no están protegidos en el disco. El sistema de archivos aprovecha la
seguridad de este buffer de escritura a fin de implementar una funcionalidad de
reinicio rápida y segura. El sistema de archivos utiliza muchas comprobaciones
lógicas internas y de integridad de estructura de datos. Si se detecta un problema en
una de estas comprobaciones, el sistema de archivos se reinicia. Las
comprobaciones y los reinicios proporcionan detección y recuperación tempranas de
errores que ocasionan daños en los datos. Cuando se reinicia, el sistema de
archivos de Data Domain verifica la integridad de los datos en el buffer NVRAM antes
de colocarlos en un sistema de archivos, lo que impide la pérdida de datos como
consecuencia del reinicio. Dado que NVRAM es un dispositivo de hardware
independiente, protege los datos contra errores que pueden dañar los datos en la
memoria RAM. Dado que la memoria RAM no es volátil, también brinda protección
contra fallas eléctricas. Si bien NVRAM es importante para garantizar el éxito de los
nuevos respaldos, el sistema de archivos garantiza la integridad de los respaldos
antiguos, incluso ante una falla de NVRAM.
Sin escrituras parciales de fracciones
Los arreglos de discos de almacenamiento primario tradicionales, ya sean RAID 1,
RAID 3, RAID 4, RAID 5 o RAID 6, pueden perder datos antiguos si, durante una
operación de escritura, se produce una falla eléctrica que genera errores en un
disco. Esto se debe a que la reconstrucción de disco depende de que todos los
bloques en una fracción RAID sean consistentes, pero, durante una escritura de
bloque, existe una ventana de transición durante la cual la fracción no es
consistente, por lo que la reconstrucción de la fracción puede fallar y los datos
antiguos del disco con errores se pueden perder. Los sistemas de almacenamiento
empresariales ofrecen protección al respecto con fuentes de alimentación sin
interrupción o NVRAM. Sin embargo, si estas fallan debido a una interrupción
prolongada de energía, se pueden perder los datos antiguos y puede fallar cualquier
intento de recuperación. Por este motivo, los sistemas Data Domain nunca
actualizan solamente un bloque en una fracción. De acuerdo con la política de no
sobrescritura, todas las nuevas escrituras apuntan a nuevas fracciones RAID, y esas
fracciones se escriben en su totalidad1. La verificación con posterioridad a la
escritura garantiza la consistencia de la nueva fracción. Las escrituras nuevas no
1
El producto de gateway, que utiliza RAID externo, no puede garantizar la ausencia de escrituras parciales de
fracciones.
Arquitectura de invulnerabilidad de datos de EMC Data Domain
7
ponen en riesgo los respaldos existentes. Los sistemas Data Domain están
diseñados para minimizar la cantidad de errores estándar en el sistema de
almacenamiento. Si se producen errores más desafiantes, se tarda menos tiempo en
encontrarlos, corregirlos y notificar al operador.
Detección de fallas y reparación continuas
Independientemente de las medidas de seguridad de software que se apliquen, los
productos de hardware informático presentan errores ocasionales por naturaleza.
De manera más visible en un sistema de almacenamiento, se pueden producir
errores en las unidades de disco, pero también se pueden producir otros errores
más localizados o transitorios. Es posible que un bloque de disco individual no se
pueda leer o que haya una alternación de bits en la interconexión de
almacenamiento o en el bus interno del sistema. Por este motivo, DD OS emplea
niveles adicionales de protección de datos para detectar fallas y recuperarse de
ellas inmediatamente a fin de garantizar los resultados óptimos en las operaciones
de restauración de datos.
RAID 6: Protección contra fallas de dos discos y corrección de errores de lectura
RAID 6 constituye la base de la funcionalidad de detección y reparación continuas de
fallas que ofrece Data Domain. Su eficiente arquitectura de paridad doble ofrece
ventajas significativas con respecto a
las arquitecturas convencionales, que
incluyen enfoques de paridad única
RAID 1 (espejeado), RAID 3, RAID 4 o
RAID 5. RAID 6:
•
Brinda protección contra fallas
en dos discos.
•
Brinda protección contra errores
de lectura de disco durante el
proceso de reconstrucción.
•
Brinda protección contra la
extracción del disco incorrecto
por parte del operador.
•
Garantiza la consistencia de las
fracciones RAID incluso durante
una falla en la energía sin
depender de NVRAM ni UPS.
•
Verifica la integridad de los
datos y la consistencia de las
fracciones después de las
escrituras.
Figura 3. La funcionalidad de detección
y reparación continuas de fallas brinda
protección contra fallas en el sistema
de almacenamiento. El sistema vuelve a
comprobar periódicamente la integridad de
las fracciones RAID y el log contenedor, y utiliza
la redundancia del sistema RAID para
solucionar cualquier falla que se produzca.
En cada una de las lecturas, se vuelve a verificar
la integridad de los datos y se repara cualquier
error de manera inmediata.
Arquitectura de invulnerabilidad de datos de EMC Data Domain
8
Cada bandeja incluye una unidad de repuesto global, que reemplaza
automáticamente una unidad fallida en cualquier parte del sistema Data Domain.
Cuando EMC reemplaza una unidad fallida reemplazable en caliente, esa unidad se
convierte en la nueva unidad de repuesto global. En comparación, una vez que un
solo disco deja de funcionar en los otros enfoques de RAID, cualquier otro error de
disco simultáneo genera la pérdida de datos. Todo sistema de almacenamiento del
último recurso debe incluir el nivel de protección adicional que ofrece RAID 6.
Detección y corrección de errores de manera inmediata
Para garantizar que todos los datos devueltos al usuario durante una restauración
sean correctos, el sistema de archivos Data Domain almacena todas sus estructuras
de datos en disco en bloques de datos con formato. Estos se identifican
automáticamente y se incluyen en una sólida suma de verificación. En cada lectura
desde el disco, el sistema, primero, verifica que el bloque leído sea el esperado.
Luego, utiliza la suma de verificación para comprobar la integridad de los datos.
Si se detecta un problema, le solicita a RAID 6 que utilice su nivel adicional de
redundancia para corregir el error en los datos. Debido a que las fracciones RAID
nunca se actualizan de manera parcial, se garantiza su consistencia, al igual que la
capacidad de reparar un error en el momento de su descubrimiento.
Limpieza para impedir que se dañen los datos
La detección de errores de manera instantánea funciona correctamente con los
datos que se leen, pero no enfrenta los problemas con los datos que no se leen
durante semanas o meses antes de que se requieran para una recuperación.
Por este motivo, los sistemas Data Domain vuelven a verificar activamente la
integridad de todos los datos mediante un proceso continuo que se ejecuta en
segundo plano. Este proceso de limpieza encuentra y repara de manera inteligente
los errores en el disco antes de que puedan representar un problema. Mediante la
detección y la corrección de errores de manera inmediata y la limpieza constante de
datos de RAID 6, la mayoría de los errores generados en la unidad de disco y en el
sistema informático se pueden aislar y solucionar sin provocar ningún impacto en el
funcionamiento del sistema y sin riesgos para los datos.
Capacidad de recuperación del sistema de archivos
Si bien se realizan muchos esfuerzos para garantizar que no haya problemas en el
sistema de archivos, la arquitectura de invulnerabilidad de datos prevé que, al ser
creado por el hombre, cualquier sistema puede presentar un problema en cierto
momento. Por lo tanto, incluye características para reconstruir metadatos perdidos o
dañados del sistema de archivos y, asimismo, herramientas de comprobación del
sistema de archivos que pueden volver a poner en línea un sistema con problemas
de manera segura y rápida.
Arquitectura de invulnerabilidad de datos de EMC Data Domain
9
Formato de datos autodescriptivo para
garantizar la capacidad de recuperación
de los metadatos
Las estructuras de metadatos, como los
índices que aceleran el acceso, se
pueden reconstruir a partir de los datos
en disco. Todos los datos se almacenan
junto con los metadatos que los
describen. Si una estructura de
metadatos se daña de algún modo,
existen dos niveles de capacidad de
recuperación. En primer lugar, se crea un
Figura 4. Los datos se escriben en un
snapshot de los metadatos del sistema de
formato autodescriptivo. Si es necesario,
archivos cada cierta cantidad de horas y
se puede volver a crear el sistema de
archivos mediante el análisis del log y la
la capacidad de recuperación puede
reconstrucción a partir de los metadatos
depender de esta copia de punto en el
almacenados con los datos.
tiempo. En segundo lugar, se pueden
analizar los datos en el disco y se puede
reconstruir la estructura de metadatos. Estas funcionalidades hacen posible la
capacidad de recuperación incluso si se produce el peor de los daños en el sistema
de archivos o en sus metadatos.
La comprobación de FS, en caso de ser necesaria, es rápida
En un sistema de archivos tradicional, no se comprueba constantemente la
consistencia en línea. Los sistemas Data Domain realizan la comprobación mediante
una verificación inicial después de cada respaldo a fin de garantizar la consistencia
de todas las escrituras nuevas. El tamaño utilizable de un sistema de archivos
tradicional, generalmente, está limitado por el tiempo que llevaría recuperar el
sistema de archivos si se produjera algún tipo de daño. Imagine la ejecución de fsck
en un sistema de archivos tradicional con más de 80 TB de datos. El motivo por el
cual el proceso de comprobación puede tardar tanto es que el sistema de archivos
debe distinguir dónde se ubican los bloques libres para que las escrituras nuevas no
sobrescriban los datos existentes de manera accidental. Por lo general, esto implica
la comprobación de todas las referencias para reconstruir los mapas de bloques
libres y los conteos de referencia. Cuantos más datos haya en el sistema, más
tiempo tardará este proceso. Por el contrario, dado que el sistema de archivos Data
Domain nunca sobrescribe datos antiguos ni tiene que reconstruir mapas de
bloques ni conteos de referencia, solo debe verificar dónde se ubica el encabezado
del log para volver a poner el sistema en línea de manera segura a fin de restaurar
los datos críticos.
Arquitectura de invulnerabilidad de datos de EMC Data Domain
10
Conclusiones
Ningún mecanismo por sí mismo es suficiente para garantizar la integridad de los
datos en un sistema de almacenamiento. La capacidad de recuperación de datos
solo se puede garantizar mediante la cooperación de una gran cantidad de
mecanismos que establecen líneas de defensa contra todos los orígenes de errores.
A diferencia de los sistemas de almacenamiento tradicionales, cuyo propósito ha
cambiado del almacenamiento primario a la protección de datos, los sistemas
Data Domain están diseñados desde el principio específicamente para el
almacenamiento de datos de último recurso. La innovadora arquitectura de
invulnerabilidad de datos brinda la mejor protección del sector contra los problemas
de integridad de datos. La verificación avanzada garantiza que los nuevos datos de
respaldo y de archivo se almacenen correctamente. La arquitectura estructurada en
logs y sin sobrescritura del sistema de archivos de Data Domain, junto con la
reiteración de escrituras de fracciones completas, garantiza que los datos antiguos
siempre estén seguros, incluso, ante posibles errores de software ocasionados por
los nuevos datos. Mientras tanto, una implementación simple y sólida reduce la
posibilidad de que se produzcan errores de software en primer lugar.
Los mecanismos mencionados brindan protección contra problemas durante el
almacenamiento de datos de respaldo y de archivo, pero las fallas en el
almacenamiento en sí también ponen en peligro la capacidad de recuperación de los
datos. Por este motivo, la arquitectura de invulnerabilidad de datos incluye una
implementación propietaria de RAID 6 que brinda protección contra fallas en hasta
dos discos; puede reconstruir un disco con errores, incluso si se presenta un error de
lectura de datos; y corrige errores de manera instantánea durante la lectura.
Asimismo, incluye un proceso de limpieza constante que busca y repara de manera
activa las fallas latentes antes de que se conviertan en un problema.
La última medida de defensa es la función de recuperación del sistema de archivos
Data Domain. El formato de datos autodescriptivo permite reconstruir los datos de
archivo, incluso si se dañan o se pierden varias estructuras de metadatos. Además,
la comprobación y la reparación rápidas del sistema de archivos logran que hasta un
sistema con docenas de terabytes de datos no esté offline durante mucho tiempo en
caso de que se presente algún tipo de problema.
Los sistemas Data Domain son la única solución que incluye esta atención incesante
a la integridad de los datos, lo que le permite tener la máxima confianza en su
capacidad de recuperación.
Arquitectura de invulnerabilidad de datos de EMC Data Domain
11
Descargar