Confiabilidad en Azure Backup

Azure Backup es un servicio de Azure integrado que protege de forma segura las cargas de trabajo locales y en la nube. La copia de seguridad puede escalar su protección en múltiples cargas de trabajo y proporciona integración nativa con las cargas de trabajo de Azure, incluidas las máquinas virtuales (VM) en Azure, SAP HANA en máquinas virtuales en Azure, SQL en máquinas virtuales en Azure, Azure Files, Azure Blob Storage, Azure Data Lake Storage, discos administrados de Azure, volúmenes de Azure Elastic SAN y Azure Kubernetes Service (AKS). No es necesario administrar la automatización ni la infraestructura, escribir scripts ni aprovisionar el almacenamiento.

Al usar Azure, relibilidad es una responsabilidad compartida. Microsoft proporciona una variedad de capacidades para admitir resiliencia y recuperación. Es responsable de comprender cómo funcionan esas funcionalidades dentro de todos los servicios que usa y de seleccionar las funcionalidades que necesita para cumplir los objetivos empresariales y los objetivos de tiempo de actividad.

En este artículo se describe cómo la copia de seguridad puede ser resistente a una variedad de posibles interrupciones y problemas, incluidos errores transitorios, interrupciones de zona de disponibilidad y interrupciones de regiones. También resalta cierta información clave sobre el acuerdo de nivel de servicio (SLA) de copia de seguridad.

Nota:

En este artículo se describe cómo el propio servicio Backup es resistente a varios problemas y cómo puede hacer que sea más resistente. No explica cómo usar backup para proteger las máquinas virtuales, los datos u otros recursos. Para obtener información sobre cómo usar Backup, consulte Introducción a la copia de seguridad.

Recomendaciones de implementación de producción para la confiabilidad

Para realizar copias de seguridad de las cargas de trabajo de producción, se recomienda configurar la bóveda de las siguientes maneras:

  • Use el almacenamiento con redundancia de zona (ZRS) como nivel de redundancia mínimo para las copias de seguridad. ZRS replica las copias de seguridad en varias zonas de disponibilidad para poder restaurar las copias de seguridad durante una interrupción de la zona de disponibilidad.

  • Si usa almacenamiento con redundancia geográfica (GRS) para replicar las copias de seguridad en una región de Azure emparejada, habilite la restauración entre regiones (CRR) para orígenes de datos admitidos. CRR le permite restaurar las copias de seguridad en la región emparejada en cualquier momento.

En las secciones siguientes de este artículo se proporcionan más detalles sobre estas configuraciones.

Nota:

Estas recomendaciones de redundancia de almacenamiento se aplican a ubicaciones en las que se replican las copias de seguridad, no al servicio Backup o a los recursos de los que realiza una copia de seguridad. La protección de copia de seguridad y la redundancia de almacenamiento se complementan entre sí. Las copias de seguridad protegen contra la pérdida de datos y la redundancia protege frente a errores de infraestructura.

Para obtener una lista de otras recomendaciones para copia de seguridad, incluidas las recomendaciones centradas en la confiabilidad, consulte Copia de seguridad de cargas de trabajo en la nube y cargas de trabajo locales a la nube.

Introducción a la arquitectura de confiabilidad

En esta sección se describen algunos de los aspectos importantes de cómo funciona el servicio que es más relevante desde una perspectiva de confiabilidad. En la sección se presenta la arquitectura lógica, que incluye algunos de los recursos y características que se implementan y usan. También se describe la arquitectura física, que proporciona detalles sobre cómo funciona el servicio en segundo plano.

Arquitectura lógica

La copia de seguridad puede realizar copias de seguridad y restaurar una variedad de orígenes de datos. Las copias de seguridad se configuran de forma diferente en función del origen de datos con el que trabaje. Los orígenes de datos siguientes son comunes:

  • máquinas virtuales de Azure
  • Varias bases de datos
  • cuentas de Blob Storage
  • Clústeres de AKS
  • Servidores locales a través del agente de Microsoft Azure Recovery Services (MARS)

La copia de seguridad almacena los datos de copia de seguridad en almacenes. Las bóvedas son entidades de almacenamiento en línea en Azure que contienen datos, como copias de seguridad, puntos de recuperación y políticas de copia de seguridad. Los almacenes de Recovery Services y los almacenes de Backup son dos tipos de almacenes. Puede usar uno o ambos tipos en función de lo que necesite proteger. Para obtener una lista de los orígenes de datos que admite cada tipo de almacén, consulte Preguntas más frecuentes sobre los almacenes admitidos para la copia de seguridad y restauración.

Los trabajos representan la actividad de copia de seguridad o restauración de los datos. Los trabajos de copia de seguridad incluyen operaciones programadas o bajo demanda que copian sus datos desde el origen a la bóveda. Los trabajos de restauración incluyen operaciones que recuperan los datos del almacenamiento de copia de seguridad en una ubicación de destino. Cada trabajo tiene un identificador único y un seguimiento de estado para que pueda supervisar el progreso y solucionar problemas que se producen durante las operaciones de copia de seguridad y restauración. Tú también creas directivas de copia de seguridad asociadas a trabajos. Las directivas especifican la configuración como la programación de copia de seguridad y cuánto tiempo desea conservar los datos.

Bóvedas almacenan las directivas de copia de seguridad y la configuración junto con los metadatos de los trabajos, permitiéndole realizar un seguimiento de los trabajos y solucionar problemas.

Arquitectura física

Microsoft administra la infraestructura principal del servicio Backup. Esta infraestructura es responsable de la administración y el funcionamiento del servicio, incluidos los trabajos de desencadenamiento y supervisión.

Los respaldos se almacenan en la bóveda. Las bóvedas se construyen sobre Azure Storage. Las bóvedas replican automáticamente los datos de copias de seguridad, y la durabilidad y resistencia de la copia de seguridad dependen de la redundancia de almacenamiento de la bóveda.

  • Almacenamiento con redundancia de ubicación (LRS) replica los datos dentro de su almacén en una o varias zonas de disponibilidad de Azure ubicadas en la región primaria de su elección. No puede elegir la zona de disponibilidad preferida, pero Azure puede mover o expandir cuentas de LRS entre zonas para mejorar el equilibrio de carga. No se garantiza que los datos se repartan entre zonas. Para obtener más información, consulte Introducción a las zonas de disponibilidad.

  • ZRS y GRS proporcionan protecciones adicionales. En este artículo se describen estas opciones al detalle.

Nota:

Algunas fuentes de datos admiten copias de seguridad de nivel operativo, que almacenan datos en otra ubicación en lugar del almacén. Por ejemplo, la copia de seguridad de discos administrados de Azure y las copias de seguridad de AKS admiten copias de seguridad de nivel operativo, que se almacenan en instantáneas de disco. En este artículo no se describe el almacenamiento de copia de seguridad de nivel operativo, pero puede aplicar las instrucciones de resistencia de este artículo a operaciones y flujos de trabajo de copia de seguridad para estos tipos de copia de seguridad.

Resistencia a errores transitorios

Los errores transitorios son errores breves e intermitentes en los componentes. Se producen con frecuencia en un entorno distribuido como la nube y son una parte normal de las operaciones. Los errores transitorios se corrigen después de un breve período de tiempo. Es importante que las aplicaciones puedan controlar errores transitorios, normalmente mediante el reintento de solicitudes afectadas.

Todas las aplicaciones hospedadas en la nube deben seguir las instrucciones de control de errores transitorios Azure cuando se comunican con cualquier API, bases de datos y otros componentes hospedados en la nube. Para obtener más información, consulte Recomendaciones para controlar errores transitorios.

Cuando se usa Backup, los flujos de trabajo de copia de seguridad y restauración son resistentes a errores intermitentes. El servicio vuelve a intentarlo automáticamente cuando encuentra errores transitorios de red o interrupciones temporales del servicio. Tú no configuras ninguna lógica de reintento. Si experimenta errores repetidos, consulte Solución de problemas de las operaciones de administración de la bóveda de copias de seguridad.

Resistencia a errores de zona de disponibilidad

Availability zones son grupos de centros de datos físicamente independientes dentro de una región de Azure. Cuando una zona falla, los servicios pueden transferirse a una de las zonas restantes.

La copia de seguridad administra por separado la configuración de zona de disponibilidad del servicio y de los datos.

  • Servicio: El servicio de Backup es automáticamente resistente a las zonas en regiones admitidas. Sin embargo, esta resistencia de zona integrada no se aplica a los datos de copia de seguridad.

  • Redundancia de almacenamiento de copia de seguridad: Seleccione el nivel de redundancia que desea para los datos de copia de seguridad mediante la configuración del almacén de Recovery Services o el almacén de Backup. Si selecciona ZRS, las copias de los datos de copia de seguridad se almacenan automáticamente en varias zonas de disponibilidad en la región de Azure que use.

    Si no usa ZRS, los datos de copia de seguridad se consideran no zonales y pueden almacenarse en cualquier zona. Si alguna zona de la región tiene un problema, es posible que los datos de copia de seguridad no zonales no estén disponibles.

Diagrama que muestra el núcleo del servicio de copia de seguridad, que es automáticamente resiliente a zonas y almacenamiento de copia de seguridad redundante en zonas.

En el diagrama se muestra la arquitectura resiliente a las zonas de Backup en tres zonas de disponibilidad. Tres columnas representan la zona de disponibilidad 1, la zona de disponibilidad 2 y la zona de disponibilidad 3. Un cuadro con la etiqueta "Servicio principal de respaldo" abarca las tres zonas. Debajo de este cuadro, el diagrama muestra una sola fila con la etiqueta ZRS que también abarca las tres zonas de disponibilidad. Debajo de la fila ZRS, otro cuadro abarca las tres zonas de disponibilidad. Este cuadro contiene dos iconos de nube que representan un almacén de Backup y un almacén de Recovery Services.

Requisitos

  • Compatibilidad con regiones: El servicio es automáticamente resistente a zonas en todas las regiones que tienen zonas de disponibilidad. Los almacenes de ZRS se admiten en las mismas regiones.

  • Solo bóvedas nuevas: Configure ZRS en su bóveda antes de la primera copia de seguridad.

Cost

Al habilitar ZRS para las copias de seguridad, se le cobra a una tarifa diferente de LRS debido a la sobrecarga adicional de replicación y almacenamiento. Para obtener más información, consulte Precios de copia de seguridad.

Configurar soporte de zonas de disponibilidad

  • Cree un nuevo almacén que use ZRS: Configure la redundancia de almacenamiento al crear un almacén. Siga los diferentes pasos según el tipo de bóveda. Para obtener más información, consulte los artículos siguientes:

  • Configuración de ZRS en almacenes existentes: En el caso de los almacenes de Backup, configure la redundancia de almacenamiento al crear el almacén. Después de crear un almacén de Backup, la configuración está bloqueada y no se puede cambiar.

    En el caso de las bóvedas de Recovery Services, debe configurar la redundancia de almacenamiento antes de proteger cualquier carga de trabajo. Después de proteger una carga de trabajo, la configuración está bloqueada y no se puede cambiar.

    Puede crear una nueva bóveda configurada para usar ZRS y reasignar las cargas de trabajo a la nueva bóveda. Sin embargo, este enfoque requiere tiempo de inactividad. Para obtener más información, consulte Modificación de la configuración predeterminada. También es responsable de eliminar manualmente los puntos de recuperación existentes y otros datos porque las directivas de retención del almacén antiguo ya no se aplican. Para obtener más información, consulte Eliminación de un almacén de Backup o Eliminación de un almacén de Recovery Services.

Comportamiento cuando todas las zonas están en buen estado

En esta sección se describe qué esperar al configurar bóvedas para ZRS cuando todas las zonas están operativas.

  • Operación entre zonas: Los trabajos de copia de seguridad se ejecutan en la infraestructura replicada entre zonas. Azure administra los trabajos de la infraestructura en cualquier zona.

  • Replicación de datos entre zonas: ZRS replica los datos de copia de seguridad entre zonas. La replicación se produce de forma sincrónica, lo que significa que varias zonas reconocen cada operación de escritura antes de que se complete.

Comportamiento durante un fallo de zona

En esta sección se describe qué esperar al configurar bóvedas para ZRS cuando se produce una interrupción en una de las zonas.

  • Detección y respuesta: Para el servicio de copia de seguridad, Microsoft es responsable de detectar fallos en las zonas de disponibilidad y responder. No es necesario hacer nada para iniciar una conmutación por error de la zona.

    Importante

    En el caso de los datos o recursos que no están disponibles debido a una falla de la zona, usted es responsable de detectar la falla y tomar medidas de recuperación, incluida la restauración de copias de seguridad en una zona operativa.

  • Notification: Microsoft no le notifica automáticamente cuando una zona está inactiva. Sin embargo, puede usar Azure Resource Health para supervisar el estado de un recurso individual y puede configurar Resource Health alertas para notificarle problemas. También puede usar Azure Service Health para comprender el estado general del servicio, incluidos los errores de zona, y puede configurar alertas de Service Health para notificarle problemas.
  • Solicitudes activas: El comportamiento de las tareas activas depende de qué zona falla.

    • Para cualquier origen de datos en la zona de disponibilidad fallida, el fallo de la zona hace que los orígenes de datos no estén disponibles. Los trabajos activos podrían pausarse o fallar.

    • En el caso de los orígenes de datos en zonas de disponibilidad correctas que ejecutan trabajos activos, una pequeña cantidad de tiempo de inactividad, normalmente unos segundos, puede producirse mientras la plataforma cambia a zonas de disponibilidad correctas para el servicio Backup.

  • Pérdida de datos esperada: La cantidad esperada de pérdida de datos también se conoce como objetivo de punto de recuperación (RPO). El RPO de los datos de copia de seguridad depende de varios factores, incluida la programación de las copias de seguridad. En general, para una interrupción de zona, no se espera ninguna pérdida de datos de copia de seguridad porque todos los datos se replican de manera sincrónica entre las zonas.

  • Tiempo de inactividad esperado: La cantidad esperada de tiempo de inactividad también se conoce como objetivo de tiempo de recuperación (RTO). El RTO es diferente para cada uno de los escenarios siguientes:

    • En el caso de los orígenes de datos de la zona de disponibilidad fallida, es posible que estos no estén disponibles hasta que la zona se recupere. Es posible que los trabajos de copia de seguridad no se ejecuten hasta que el origen de datos esté disponible de nuevo. El RTO no está definido.

    • En el caso de los orígenes de datos en zonas de disponibilidad correctas, una pequeña cantidad de tiempo de inactividad, normalmente unos segundos, puede producirse mientras la plataforma cambia a zonas de disponibilidad correctas para el servicio Backup.

  • Redistribución: Las ejecuciones posteriores de trabajos usan automáticamente la infraestructura en zonas saludables siempre y cuando los orígenes de datos estén disponibles.

    Es responsable de restaurar la copia de seguridad en la infraestructura de una zona saludable y reconfigurar los balanceadores de carga, los clientes y otros sistemas para redirigir el tráfico a una infraestructura saludable en la nueva zona.

Recuperación de zona

Cuando se recupera la zona de disponibilidad, Backup restaura automáticamente las operaciones en la zona de disponibilidad y vuelve a enrutar el tráfico entre las zonas como es normal. Los trabajos siguen ejecutándose y los datos permanecen disponibles.

Prueba de fallos de zona

La plataforma de respaldo gestiona el enrutamiento del tráfico, la replicación de datos, la conmutación por error y la recuperación después de fallos. Esta característica está totalmente administrada, por lo que no es necesario iniciar ni validar los procesos de error de zona de disponibilidad.

Resistencia a errores en toda la región

Backup admite la redundancia geográfica y la conmutación por error a través de GRS y CRR.

Importante

GRS for Backup solo funciona en regiones Azure emparejadas.

Almacenamiento con redundancia geográfica y restauración entre regiones

Para lograr la redundancia regional de los datos de copia de seguridad, use Backup para replicar las copias de seguridad en una región emparejada Azure mediante GRS. GRS protege las copias de seguridad frente a interrupciones regionales.

La región en la que se implementa el almacén se llama región primaria. Los orígenes de datos deben encontrarse en la región primaria. No se pueden configurar copias de seguridad en una bóveda de otra región.

La región emparejada también se conoce como región secundaria.

Diagrama que muestra cómo se replican los datos utilizando GRS.

Si no configura GRS y se produce una interrupción en la región de la bóveda, es posible que pueda acceder a la bóveda y ver los elementos de copia de seguridad. Sin embargo, sin redundancia regional, los datos de copia de seguridad subyacentes permanecen no disponibles para las operaciones de restauración.

Restauración cruzada de regiones

Al configurar GRS en un almacén, Microsoft pone a disposición las copias de seguridad en la región emparejada después de que se produzca una interrupción en la región primaria. Si el origen de datos admite CRR, puede restaurar desde puntos de recuperación de regiones secundarias incluso cuando no se produzca ninguna interrupción en la región primaria. CRR también le permite ejecutar simulacros para evaluar la resistencia frente a interrupciones regionales. Al activar CRR, Microsoft actualiza el almacenamiento de copia de seguridad de GRS al almacenamiento con redundancia geográfica con acceso de lectura (RA-GRS).

Requisitos

  • Soporte de región: GRS para Backup solo funciona dentro de regiones emparejadas de Azure.

  • Solo bóvedas nuevas: Debe configurar GRS en su bóveda antes de realizar la primera copia de seguridad.

Consideraciones

  • CRR: Después de activar CRR, los elementos de copia de seguridad pueden tardar hasta 48 horas en estar disponibles en la región secundaria.

Cost

Las bóvedas GRS incurren en costos adicionales para la replicación entre regiones y para el almacenamiento en la región secundaria. La transferencia de datos entre regiones de Azure se cobra en función de las tasas estándar de ancho de banda entre regiones. La CRR se cobra a una tarifa distinta porque Microsoft actualiza el almacenamiento del cofre de GRS a RA-GRS. Para obtener más información, consulte Precios de copia de seguridad.

Configuración de la compatibilidad con varias regiones

  • Cree un nuevo almacén que use GRS y CRR: Al crear un almacén, también debe configurar la redundancia de almacenamiento. Después de seleccionar GRS, opcionalmente puede habilitar CRR en el almacén. Los pasos que siga dependen del tipo de bóveda. Para obtener más información, consulte los artículos siguientes:

  • Configuración de GRS y CRR en almacenes existentes: En el caso de los almacenes de Backup, debe configurar la redundancia de almacenamiento al crear el almacén.

    En el caso de las bóvedas de Recovery Services, debe configurar la redundancia de almacenamiento antes de proteger cualquier carga de trabajo. Una vez protegida una carga de trabajo, la configuración está bloqueada y no se puede cambiar.

    Puede habilitar CRR en almacenes GRS existentes. Después de habilitar CRR, no se puede deshabilitar.

Comportamiento cuando todas las regiones están en buen estado

En esta sección se describe qué esperar al configurar bóvedas para el uso de GRS cuando todas las regiones están operativas.

  • Operación entre regiones: Las copias de seguridad siempre se completan en la región primaria, que es la región donde están desplegados el almacén y el origen de datos.

  • Replicación de datos entre regiones: Cuando configuras el vault para usar GRS, las copias de seguridad se confirman primero en la región primaria mediante LRS. Después de finalizar correctamente en la región primaria, los datos se replican de forma asincrónica en la región secundaria. La región secundaria usa LRS para almacenar datos. Los datos de copia de seguridad pueden tardar hasta 12 horas en replicarse desde la región primaria a la región secundaria.

Comportamiento durante una falla de región

En esta sección se describe qué esperar al configurar bóvedas para usar GRS en caso de que ocurra una interrupción en la región primaria.

  • Detección y respuesta: Para los orígenes de datos que admiten CRR y donde CRR está habilitado en la bóveda, puede iniciar su propio CRR en la región emparejada en cualquier momento, incluido durante una caída de la región o un desastre. Es responsable de detectar la interrupción y realizar acciones de recuperación, incluida la restauración de copias de seguridad en una región correcta.

    En todos los demás escenarios, los datos replicados en la región secundaria están disponibles para restaurarse en la región secundaria solo si Azure declara un desastre en la región primaria. Microsoft es responsable de declarar un desastre. La cantidad de tiempo que se tarda en declarar un desastre depende de la gravedad del incidente y del tiempo necesario para evaluar la situación. Microsoft normalmente declara un desastre solo después de un período de tiempo prolongado.

  • Notification: Microsoft no le notifica automáticamente cuando una región está inactiva. Sin embargo:

  • Pérdida de datos esperada: El RPO de los datos de copia de seguridad depende de varios factores, incluida la programación de copia de seguridad. En términos generales, para una interrupción regional, se puede esperar hasta 36 horas de pérdida de datos porque el RPO en la región primaria es de 24 horas, y puede tardar hasta 12 horas en replicar los datos de copia de seguridad de la región primaria a la región secundaria.

  • Tiempo de inactividad esperado: El RTO es diferente para cada uno de los escenarios siguientes:

    • Es posible que los orígenes de datos y otros recursos de la región con errores no estén disponibles hasta que se recupere la región, por lo que el RTO no está definido.

    • Es posible que la copia de seguridad no pueda realizar operaciones de copia de seguridad o restauración en la región afectada hasta que la región se recupere, por lo que el RTO no está definido.

    • Si usa CRR, el RTO para iniciar la restauración de las copias de seguridad ya replicadas en la región emparejada es cero. Si no usa CRR, el RTO depende del tiempo que tarda Microsoft en declarar un desastre en la región afectada.

  • Redistribución: No se pueden ejecutar trabajos de copia de seguridad mientras la región primaria está sin conexión. Puede restaurar datos en la bóveda, pero no puede agregar nuevos.

    Es responsable de restaurar la copia de seguridad en la infraestructura de la región emparejada y de volver a configurar equilibradores de carga, clientes y otros sistemas para redirigir el tráfico a una infraestructura correcta en la región emparejada.

Recuperación de regiones

Cuando se recupera la región primaria, Backup restaura automáticamente las operaciones en la región. Los trabajos se reanudan y los datos permanecen disponibles.

Prueba de fallos de región

Puede usar CRR para realizar una operación de restauración en la región emparejada. Puede usar este enfoque para comprobar la restauración y otros procesos de recuperación.

Resistencia a la pérdida de datos de copia de seguridad

La copia de seguridad proporciona dos características clave de recuperación para evitar la eliminación accidental o malintencionada de los datos de copia de seguridad:

  • La eliminación temporal permite recuperar los objetos y almacenes eliminados durante un período de retención configurable. De forma predeterminada, este período es de 14 días, pero puede editarlo. Piensa en la eliminación suave como una papelera de reciclaje para tus copias de seguridad y bóvedas. Para obtener más información, consulte Seguro por defecto con la eliminación suave de Backup.

  • Los almacenes inmutables pueden ayudarle a proteger los datos de copia de seguridad bloqueando las operaciones que podrían provocar la pérdida de puntos de recuperación. Puede bloquear la configuración del almacén inmutable para que sea irreversible. También puede usar el almacenamiento de escribir una vez, leer muchas veces (WORM) para los respaldos, para evitar que usuarios malintencionados deshabiliten la inmutabilidad y eliminen copias de seguridad. Para obtener más información, consulte almacén inmutable para copia de seguridad.

Acuerdo de nivel de servicio

El acuerdo de nivel de servicio (SLA) para Azure servicios describe la disponibilidad esperada de cada servicio y las condiciones que la solución debe cumplir para lograr esa expectativa de disponibilidad. Para obtener más información, vea SLAs for servicios en línea.

El Acuerdo de Nivel de Servicio de copia de seguridad cubre la disponibilidad del servicio para las operaciones de copia de seguridad y restauración. Para estar cubierto por el Acuerdo de Nivel de Servicio, debe reintentar los trabajos de copia de seguridad o restauración con errores al menos una vez cada 30 minutos.