Confiabilidad en Azure Elastic SAN

Azure Elastic SAN es un servicio de red de área de almacenamiento nativo en la nube (SAN) que proporciona una solución de almacenamiento escalable, rentable, de alto rendimiento y completa para una variedad de opciones de proceso. Elastic SAN permite crear y administrar volúmenes, que son discos virtuales que se pueden conectar a las máquinas virtuales, contenedores u otros servicios de Azure a través del protocolo iSCSI.

Cuando se usa Azure, la confiabilidad es una responsabilidad compartida. Microsoft proporciona una variedad de capacidades para apoyar la resiliencia y la recuperación. Es responsable de comprender cómo funcionan esas funcionalidades dentro de todos los servicios que usa y de seleccionar las funcionalidades que necesita para cumplir los objetivos empresariales y los objetivos de tiempo de actividad.

En este artículo se describe cómo hacer que Azure Elastic SAN sea resiliente a una variedad de posibles interrupciones y problemas, incluidos fallos transitorios, fallos de zona de disponibilidad y fallos a nivel regional. También describe las opciones de copia de seguridad y recuperación, y resalta la información clave sobre el acuerdo de nivel de servicio (SLA) de Azure Elastic SAN.

Recomendaciones de implementación de producción para la confiabilidad

En el caso de las cargas de trabajo de producción, se recomienda que usted:

Uso del almacenamiento con redundancia de zona (ZRS): ZRS distribuye copias de los datos en tres zonas de disponibilidad.
Configure el acceso a la red para reducir la intervención manual durante los errores de zona: Los puntos de conexión privados permiten la conmutación automática por error de zona sin intervención manual, mientras que los puntos de conexión de servicio pueden requerir intervención manual.
Para cargas de trabajo que requieren recuperación ante desastres entre regiones: Cree instantáneas de los volúmenes con regularidad y expórtelas a instantáneas de disco administrado para la protección de datos. Copie las instantáneas en una región secundaria que esté geográficamente distante de la región primaria.

Introducción a la arquitectura de confiabilidad

Elastic SAN tiene una jerarquía de recursos de tres niveles:

ELASTIC SAN: el recurso de nivel superior donde se configura la redundancia, se asigna la capacidad de almacenamiento y se establecen los límites de rendimiento. El número de unidades base asignadas a elastic SAN determina el total de IOPS y el rendimiento disponibles en toda la SAN.
Grupos de volúmenes: construcciones de administración usadas para administrar volúmenes a escala. La configuración de acceso a la red, como puntos de conexión privados o puntos de conexión de servicio, se configura en el nivel de grupo de volúmenes y se hereda por todos los volúmenes del grupo.
Volúmenes: Volúmenes de almacenamiento individuales divididos de la capacidad total del SAN. Los volúmenes están conectados a recursos de proceso a través del protocolo iSCSI.

Para más información sobre los recursos que implemente, consulte Recursos elásticos de SAN.

Internamente, Elastic SAN almacena los datos dentro de los clústeres de almacenamiento. Al configurar la SAN elástica para usar el almacenamiento con redundancia local (LRS), los datos se replican tres veces dentro de un único clúster de almacenamiento en un centro de datos. Puede configurar el almacenamiento con redundancia de zona (ZRS) para almacenar copias de los datos en tres zonas de disponibilidad. Para obtener más información, consulte Resilience to availability zone failures (Resistencia a errores de zona de disponibilidad).

Resistencia a errores transitorios

Los errores transitorios son errores breves e intermitentes en los componentes. Se producen con frecuencia en un entorno distribuido como la nube y son una parte normal de las operaciones. Los errores transitorios se corrigen después de un breve período de tiempo. Es importante que las aplicaciones puedan controlar errores transitorios, normalmente mediante el reintento de solicitudes afectadas.

Todas las aplicaciones hospedadas en la nube deben seguir las instrucciones de control de errores transitorios de Azure cuando se comunican con cualquier API, bases de datos y otros componentes hospedados en la nube. Para obtener más información, consulte Recomendaciones para controlar errores transitorios.

Si se interrumpe la conexión iSCSI a un volumen de Elastic SAN, el iniciador iSCSI en el cliente intenta volver a conectarse automáticamente. Es posible que experimente una breve pausa en las operaciones de E/S durante la reconexión. Configure el iniciador iSCSI con los valores de reintento y tiempo de espera adecuados para controlar las interrupciones transitorias. Para obtener recomendaciones detalladas sobre la configuración de iSCSI y MPIO, consulte Optimización del rendimiento de elastic SAN.

Resistencia a errores de zona de disponibilidad

Las zonas de disponibilidad son grupos físicamente independientes de centros de datos dentro de una región de Azure. Cuando una zona falla, los servicios pueden transferirse a una de las zonas restantes.

Azure Elastic SAN se pueden configurar para usar el almacenamiento con redundancia de zona (ZRS), lo que significa que los datos se replican de forma sincrónica en tres zonas de disponibilidad de la región. La redundancia de zona le ayuda a lograr resistencia y confiabilidad para las cargas de trabajo de producción.

Diagrama que muestra una SAN elástica con redundancia de zona con un grupo de volúmenes que contiene un único volumen. Los datos del volumen se replican en tres zonas de disponibilidad.

El enfoque de conectividad afecta a la capacidad de la carga de trabajo para conmutar de manera transparente durante una falla de zona. Se recomienda usar puntos de conexión privados para conectarse a los volúmenes. Los puntos de conexión privados admiten la conmutación automática por error. Si usa puntos de conexión de servicio, es posible que la conmutación por error requiera una intervención manual. Para obtener más información sobre los enfoques de conectividad, consulte Más información sobre las configuraciones de red para Elastic SAN.

El uso del almacenamiento con redundancia local (LRS) deja la SAN elástica desprotegida frente a errores de zona de disponibilidad. LRS hace que el SAN elástico no es zonal almacenando datos en una sola zona de disponibilidad en lugar de distribuirlos entre zonas con ZRS.

Requisitos

Compatibilidad con regiones: Los recursos de SAN elásticos con redundancia de zona se pueden implementar en un subconjunto de regiones. Para obtener una lista de las regiones, consulte Objetivos de escalado de Elastic SAN.

Cost

Al crear una SAN elástica con ZRS, el costo es mayor que LRS. Para obtener más información sobre los precios, consulte precios Azure Elastic SAN.

Configurar soporte de zonas de disponibilidad

Cree una nueva SAN elástica con ZRS: Al crear una SAN elástica y seleccionar ZRS como opción de redundancia, la SAN elástica es automáticamente redundante por zona. No se puede cambiar la opción de redundancia después de crear la SAN elástica. Para obtener más información sobre cómo crear un nuevo recurso de Elastic SAN, consulte Implementación de una SAN elástica.
Habilite la redundancia de zona en una SAN elástica de LRS existente: No se puede convertir una SAN elástica de LRS a ZRS directamente. Para migrar, realice una instantánea de los volúmenes de Elastic SAN, expórtelos a instantáneas de disco administrado, implemente una nueva SAN elástica en ZRS y, a continuación, cree volúmenes en el nuevo SAN elástico mediante esas instantáneas de disco. Para obtener más información, consulte Snapshot Azure Elastic SAN volúmenes.

Comportamiento cuando todas las zonas están en buen estado

En esta sección se describe qué esperar al configurar una SAN elástica para la redundancia de zona y todas las zonas están operativas.

Operación entre zonas: Cuando se conecta a un volumen de Elastic SAN, la conexión iSCSI se enruta a un clúster en una de las zonas de disponibilidad. La plataforma enruta automáticamente el tráfico entre zonas.
Replicación de datos entre zonas: Cuando un cliente escribe datos en un volumen de Elastic SAN, esos datos se escriben sincrónicamente en clústeres dentro de tres zonas de disponibilidad antes de que se confirme la operación de escritura. La replicación sincrónica garantiza un alto nivel de coherencia de datos y garantiza que no se pierdan datos durante un error de zona.

La implementación de una Elastic SAN de ZRS proporciona más confiabilidad que una Elastic SAN de LRS, pero agrega más latencia de escritura. Haga pruebas comparativas de su Elastic SAN y simule la carga de trabajo de la aplicación para comparar la latencia entre LRS y ZRS, así podrá ver si afecta su carga de trabajo.

Comportamiento durante un fallo de zona

En esta sección se describe qué se puede anticipar al configurar una SAN elástica para la redundancia de zona, cuando ocurre una interrupción en una de las zonas.

Detección y respuesta: La plataforma elastic SAN detecta los errores en una zona de disponibilidad. No es necesario hacer nada para iniciar una conmutación por error de zona para las SAN Elastic de ZRS.
Notificación: Microsoft no le notifica automáticamente cuando una zona está inactiva. Sin embargo, puede usar Azure Service Health para comprender el estado general del servicio, incluidos los errores de zona, y puede configurar alertas de Service Health para notificarle problemas.
Solicitudes activas: Cuando una zona de disponibilidad deja de estar disponible, el servicio puede finalizar las operaciones de E/S en curso que se conectan a las réplicas de la zona afectada y debe reintentar esas operaciones. Si usa puntos de conexión privados, el servicio conmuta automáticamente. Si usa puntos de conexión de servicio, es posible que deba reiniciar el iniciador iSCSI para cambiar a una zona sana.
Pérdida de datos esperada: Elastic SAN evita la pérdida de datos durante un error de zona mediante la replicación sincrónica de datos entre tres zonas de disponibilidad.
Tiempo de inactividad esperado: Cuando se usan puntos de conexión privados, la conmutación por error de zona se produce automáticamente. Es posible que experimente una degradación del rendimiento y la disponibilidad durante unos minutos después de una conmutación por error mientras la SAN se reequilibra por sí misma.

Cuando usas puntos de conexión de servicio, Elastic SAN no cambia automáticamente a una zona saludable. Es posible que tenga que reiniciar el iniciador iSCSI para iniciar una conmutación por error a una zona correcta diferente.
Reenrutamiento del tráfico: Cuando una zona no está disponible, la plataforma Elastic SAN detecta la pérdida de la zona y enruta el tráfico a las zonas correctas restantes.

Para garantizar la conmutación automática por error de zona sin intervención manual, use puntos de conexión privados para conectarse a la SAN elástica. Al usar puntos de conexión de servicio en lugar de puntos de conexión privados, es posible que tenga que reiniciar el iniciador iSCSI manualmente para iniciar una conmutación por error a una zona en buen estado.

Recuperación de zona

Cuando se recupera la zona de disponibilidad, la plataforma Elastic SAN restaura automáticamente las operaciones normales y reanuda la replicación en tres zonas. No tiene que realizar ninguna acción.

Prueba de fallos de zona

La plataforma Azure Elastic SAN administra el enrutamiento del tráfico, la conmutación por error y la recuperación de zona para los recursos con redundancia de zona. Dado que esta característica está totalmente administrada, no es necesario validar los procesos de error de zona de disponibilidad.

Resistencia a errores en toda la región

Azure Elastic SAN es un servicio de una sola región. Si la región deja de estar disponible, el recurso de Elastic SAN tampoco está disponible. No hay replicación entre regiones ni conmutación por error integrada de una región a otra para Elastic SAN. Es responsable de diseñar su propia solución de recuperación ante desastres de varias regiones si la carga de trabajo requiere resistencia de nivel de región.

Soluciones personalizadas de varias regiones para la resistencia

Es responsable de implementar la recuperación ante desastres de varias regiones para los datos de Elastic SAN. El enfoque recomendado es usar instantáneas de volumen:

Cree instantáneas periódicamente. Utiliza instantáneas de volumen para capturar copias puntuales de tus volúmenes de Elastic SAN.

El objetivo de punto de recuperación (RPO) depende de la frecuencia con la que cree y copie instantáneas en la región secundaria. Cuanto más frecuentemente cree instantáneas y cópielas, menor será la pérdida de datos potencial durante un desastre.
Exportar instantáneas a instantáneas de disco administrado.Exporte las instantáneas de volumen a instantáneas de disco administrado, que se pueden copiar en otras regiones.
Copie instantáneas en una región secundaria.Copie la instantánea incremental en una nueva región que esté geográficamente distante de la región primaria. Esto reduce el riesgo de que varias regiones se vean afectadas por un único desastre.
Restaurar desde capturas. En un escenario de recuperación ante desastres, cree nuevos volúmenes en la SAN elástica secundaria a partir de las instantáneas de disco administrado copiadas.

El objetivo de tiempo de recuperación (RTO) depende del tamaño de los datos, el tiempo necesario para copiar instantáneas entre regiones y el tiempo necesario para implementar y configurar una nueva SAN elástica en la región secundaria. Para reducir el tiempo de recuperación, considere la posibilidad de implementar una SAN elástica secundaria en la región de recuperación antes de que se produzca un desastre. Esto también ayuda a evitar restricciones de capacidad durante una interrupción.

Copias de seguridad y restauración

Para la mayoría de las soluciones, no debe confiar exclusivamente en copias de seguridad. En su lugar, utilice las otras capacidades descritas en esta guía para apoyar los requisitos de resiliencia. Sin embargo, las copias de seguridad protegen contra algunos riesgos que otros enfoques no. Para más información, consulte ¿Qué son la redundancia, la replicación y la copia de seguridad?.

Elastic SAN admite dos tipos de copia de seguridad:

Azure Elastic SAN backup: Esta funcionalidad de Azure Backup ofrece una solución totalmente administrada para programar copias de seguridad, establecer escalas de tiempo de expiración para puntos de recuperación y datos de recuperación en un nuevo volumen. Ayuda a protegerse contra la pérdida de datos frente a eliminaciones accidentales, ransomware y actualizaciones de aplicaciones. Para obtener más información, consulte Azure Elastic SAN backup (versión preliminar).

Importante

Como esta solución está cubierta por los términos complementarios de Microsoft para las versiones preliminares de Azure, úsela para pruebas y no para uso de producción.
Instantáneas: Como alternativa, puede crear y administrar instantáneas en función de los requisitos de protección de datos.

Azure Elastic SAN admite instantáneas de volumen para la protección de datos. Las instantáneas son copias incrementales en un momento específico de sus volúmenes que consumen espacio de la capacidad total de su Elastic SAN. Para proteger los datos, cree instantáneas periódicamente. La frecuencia depende de la cantidad de datos que puede permitirse perder (su RPO). Puede crear instantáneas manualmente o crear su propia automatización para crearlas según una programación.

Las instantáneas se almacenan en la misma SAN elástica que tus volúmenes y usan la misma configuración de redundancia. Para protegerse frente a errores en toda la región, exporte las instantáneas a instantáneas de disco administrado y cópielas en otra región. Para obtener más información, consulte Exportación de instantáneas de volumen y Copiar una instantánea incremental a una nueva región.

Puede crear un nuevo volumen SAN elástico a partir de una instantánea o de una instantánea de un disco administrado. Para obtener más información, consulte Creación de un volumen a partir de una instantánea.

Resistencia al mantenimiento del servicio

Microsoft aplica periódicamente actualizaciones de servicio y realiza otro mantenimiento. La plataforma Azure controla estas actividades automáticamente, lo que garantiza que el mantenimiento sea transparente y sin problemas. No se espera ningún tiempo de inactividad durante los eventos de mantenimiento a menos que se le haya informado a través del mantenimiento planeado de Azure Service Health.

Acuerdo de nivel de servicio

El acuerdo de nivel de servicio (SLA) para Azure servicios describe la disponibilidad esperada de cada servicio y las condiciones que la solución debe cumplir para lograr esa expectativa de disponibilidad. Para obtener más información, consulte Acuerdos de Nivel de Servicio para servicios en línea.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-28