El fin de la redundancia de datos: la deduplicación La deduplicación de datos es una de las más nuevas tecnologías de almacenamiento para controlar el crecimiento de los datos y al mismo tiempo protegerlos. Esta técnica de respaldo elimina los datos redundantes almacenados, guardando una única copia idéntica de los datos, y reemplazando las copias redundantes por indicadores que apuntan a esa única copia. Un ejemplo sencillo Este es un ejemplo sencillo: Digamos que 500 personas reciben un correo electrónico enviado a toda la empresa, con un archivo adjunto de 1 megabyte. Si cada destinatario guarda el archivo adjunto en su PC, la copia se replicará 500 veces cuando se realice el respaldo de todas las computadoras, lo que consumirá 499 MB más de espacio que lo necesario. La deduplicación de datos guarda sólo una copia de los datos del adjunto, y reemplaza las otras 499 copias por indicadores que apuntarán a esa única copia. La tecnología también trabaja en un segundo nivel: Si se realiza un cambio en el archivo original, la deduplicación de datos guarda sólo el bloque o bloques de datos que se modificaron. Generalmente, un bloque es pequeño: entre 2 y 10 KB de datos. Si el título de la presentación de 1 MB es modificado, la deduplicación guarda sólo el nuevo título, normalmente en un bloque de datos de 4 KB, con indicadores que apuntan a la primera iteración del archivo. De esta manera, sólo se guardan 4 KB de nuevos datos de respaldo. Y si se usa junto con otros métodos de reducción de datos, como la compresión de datos convencional, la deduplicación puede reducir aún más el volumen y ayudarlo a: • Ahorrar dinero disminuyendo la inversión en discos • Mejorar la capacidad de utilización • Reducir la necesidad de respaldo en cinta • Recuperarse con más rapidez luego de una interrupción Cálculo del espacio de almacenamiento de respaldo ahorrado Puede parecer que al almacenar más datos en menos espacio, habrá más espacio para guardar nuevos datos, pero no es así que la deduplicación de datos funciona. Como la tecnología usa indicadores para ubicar datos repetidos, la proporción de datos que se puede almacenar aumenta cada vez que se hace un respaldo. Sin embargo, al agregar más datos únicos no se aprovecha el ahorro de espacio que los indicadores brindan. (Vea “Evaluación de la eficiencia de la deduplicación de datos” para obtener más detalles.) Por lo tanto, la deduplicación hace posible que se almacenen más respaldos, durante más tiempo, en la misma cantidad de espacio. ¿Cuál es la mejor opción para mi negocio? La mejor opción para la deduplicación de datos depende del tamaño de su empresa y sus necesidades de respaldo. Algunas compañías ofrecen uno de dos métodos: la diferenciación a nivel de objeto o la fragmentación de hash. Pero ambas tecnologías presentan puntos débiles y fuertes, dependiendo del entorno. Es por eso que HP ahora ofrece ambas opciones de configuración, personalizadas según las necesidades de cada entorno empresarial: • Para grandes empresas, la familia de productos Virtual Library Systems de HP ofrece deduplicación acelerada en una plataforma de probada eficacia, que se integra a los procesos y aplicaciones de respaldo existentes para agilizar la realización de respaldos en entornos de SAN complejos, aumentando la confiabilidad. • Para pequeñas y medianas empresas (y oficinas remotas), HP ofrece soluciones de deduplicación dinámicas, sencillas, autoadministrables, confiables y de bajo costo: la familia de Sistemas de respaldo HP StorageWorks D2D. Independientemente de sus necesidades, HP pone a su disposición varias opciones de deduplicación de datos, en lugar de una única opción ampliada o reducida.