Opciones de configuración avanzadas en Azure Synapse Link

Azure Synapse Link ofrece varias maneras de escribir y leer los datos para adaptarse a varios escenarios analíticos. En función de su escenario analítico, puede elegir una configuración específica entre las siguientes opciones.

Situación Se aplica a Opciones de configuración disponibles
Informes operativos Tablas de Microsoft Dataverse, tablas de finanzas y operaciones y entidades. Synapse Analytics con la opción de lago delta proporciona mejores tiempos de respuesta a las consultas, especialmente cuando se consultan grandes cantidades de datos. Más información: Synapse Link con la opción Delta lake
Informes operativos Tablas de Dataverse únicamente. Synapse Link con la opción de configuración "Actualización local" proporciona archivos CSV en el lago de datos que se actualizan casi en tiempo real.

Esta es una opción heredada disponible para tablas de Dataverse. Esta opción no se admite para tablas de aplicaciones de finanzas y operaciones.
Integración de datos Tablas y entidades de Dataverse y tablas de finanzas y operaciones. "La opción Solo anexar proporciona archivos CSV que contienen datos incrementales. Puede crear canalizaciones que consuman datos incrementales y pueblen sistemas descendientes.

La función de partición de datos definida por el usuario permite elegir una estrategia de partición de datos personalizada específicamente para tablas de Dataverse. El sistema divide los datos de la tabla de finanzas y operaciones en función de la estrategia de partición adecuada. Esta opción no está disponible para las aplicaciones de finanzas y operaciones.

Nota:

Azure Synapse Link para Dataverse anteriormente se conocía como Exportación a lago de datos. Microsoft cambió el nombre del servicio en mayo de 2021. El servicio continúa exportando datos a Azure Data Lake Storage, así como a Azure Synapse Analytics. A partir de septiembre de 2023, Azure Synapse Link también le permite elegir datos de Dynamics 365 aplicaciones de finanzas y operaciones. No todos los patrones de integración son compatibles con aplicaciones de finanzas y operaciones. Para obtener instrucciones sobre la transición de la función de exportación a lago de datos en las aplicaciones de finanzas y operaciones hacia Synapse Link, consulte la Guía de transición.

En este artículo se tratan las opciones de configuración avanzada disponibles para las tablas de Dataverse. Estas opciones no están disponibles para aplicaciones de finanzas y operaciones.

  1. Actualizaciones in situ frente a escrituras solo para anexar.
  2. Partición de datos especificada por el usuario.

Actualizaciones in situ frente a escrituras solo para anexar

Al escribir datos de tabla de Dataverse en el lago de datos de Azure, en función del valor de createdOn, que es la fecha y hora en que se creó el registro, hay dos configuraciones diferentes entre las que elegir. Son Actualización en contexto y Solo anexar.

La configuración predeterminada (para las tablas donde createdOn está disponible) es realizar una actualización in situ o una integración (actualización o inserción) de los datos incrementales en el destino. Si el cambio es nuevo y no existe una fila correspondiente en el lago, en el caso de una creación, los archivos de destino se escanean y los cambios se insertan en la partición de archivo correspondiente en el lago. Si el cambio es una actualización y existe una fila en el lago, el archivo correspondiente en el lago se actualiza con los datos incrementales, en lugar de ser insertado. En otras palabras, la configuración predeterminada para todos los cambios de CUD (crear, actualizar, eliminar) en tablas de Dataverse, donde createdOn está disponible, es realizar una actualización in situ en el destino, en Azure Data Lake.

Puede cambiar el comportamiento predeterminado de una actualización in situ utilizando una configuración opcional llamada Solo anexar. En lugar de una Actualización en contexto, en modo Solo anexar se anexan datos incrementales de las tablas de Dataverse a la partición de archivos correspondiente en el lago. Esta es una configuración por tabla y está disponible como una casilla en Avanzado>Mostrar opciones de configuración avanzadas. Para tablas de Dataverse con la opción Solo anexar activada, todos los cambios de CUD se agregan de forma incremental a los archivos de destino correspondientes en el lago. Cuando elige esta opción, la estrategia de partición predeterminada es Año y cuando los datos se escriben en el lago de datos, se dividen por año. Solo anexar es también la configuración predeterminada para tablas de Dataverse que no tienen createdOn valor.

Esta tabla describe cómo se procesan las filas del lago ante eventos CUD para cada una de las opciones de escritura de datos.

Evento Actualización in situ Solo añadir
Create La fila se inserta en el archivo de partición y se basa en el valor createdOn de la fila. La fila se agrega al final del archivo de partición y se basa en el valor createdOn del registro.
Update Si la fila existe en el archivo de partición, se reemplaza o actualiza con datos actualizados. Si no existe, se inserta en el archivo. La fila, junto con la versión actualizada, se agrega al final del archivo de partición.
Delete Si la fila existe en el archivo de partición, se elimina del archivo. La fila se agrega al final del archivo de partición con IsDelete column = True.

Nota:

En el caso de las tablas de Dataverse en las que está habilitado solo para agregar, eliminar una fila en el origen de datos no elimina ni quita la fila del lago de datos. En su lugar, la fila eliminada se agrega como una nueva fila en el lago y la columna isDeleted se establece en Verdadero.

La lectura sucia (ALLOW_INCONSISTENT_READS) para sin servidor está habilitada para el modo de solo anexar. ALLOW_INCONSISTENT_READS significa que el usuario puede leer los archivos que se pueden modificar constantemente mientras se ejecuta la consulta SELECT. Los resultados son coherentes y equivalentes a leer una instantánea del archivo. (No es equivalente al aislamiento de la instantánea de la base de datos debido al diferente tiempo de generación de la instantánea).

No todos los cambios de CUD se capturan en append only. Synapse Link procesa cambios en los datos por medio de lotes antes de publicarlos en el lago de datos. Como resultado, si el usuario realiza cambios en un intervalo de tiempo corto, no todos los cambios de CUD se capturan en el lago de datos.

Aquí hay algunos detalles más sobre cuándo usar cualquiera de las opciones.

  • Actualización local (heredada): esta opción es la configuración predeterminada y solo se recomienda si desea conectarse directamente a los datos del lago y necesita el estado actual (no el historial o los cambios incrementales). El archivo contiene el conjunto de datos completo y se puede usar a través de Power BI o copiando todo el conjunto de datos para canalizaciones ETL (extracción, transferencia, carga).

    Importante

    La actualización local es un modo heredado y no se escala bien con grandes volúmenes de datos o cuando los cambios son frecuentes. Si la tabla tiene una gran cantidad de datos o experimenta una alta tasa de creaciones, actualizaciones o eliminaciones, use Append solo en su lugar para garantizar una exportación de datos confiable y eficaz.

  • Solo anexar: seleccione esta opción si no se conecta directamente a los datos en el lago y desea copiar de forma incremental los datos a otro objetivo mediante canalizaciones ETL. Esta opción proporciona un historial de cambios para habilitar escenarios de IA y ML. Esta es la opción recomendada para las tablas con grandes volúmenes de datos o cambios frecuentes en los datos.

Puede alternar la opción Mostrar configuración avanzada en Avanzadas en Azure Synapse Link para Dataverse para personalizar su estrategia de partición de datos y seleccionar opciones para escribir en el lago de datos de Azure.

Mostrar configuración avanzada.

Creación de particiones de datos

Al escribir datos de tabla de Dataverse en Azure Data Lake Storage mediante Azure Synapse Link, las tablas se particionan en el lago en función del createdOn valor de cada fila del origen. La estrategia de partición predeterminada es por mes, por lo que los datos se particionan en Azure Data Lake mensualmente.

Según el volumen de tabla y la distribución de datos de Dataverse, puede optar por partir sus datos por año. Con esta opción, cuando los datos de la tabla de Dataverse se escriben en Azure Data Lake, se particionan cada año en función del createdOn valor de cada fila del origen. Para tablas sin la columna createdOn, las filas de datos se dividen en un nuevo archivo cada cinco millones de registros. Esta es una configuración por tabla y está disponible como una casilla en Avanzado>Mostrar opciones de configuración avanzadas.

Estos son ejemplos de cómo se pueden controlar los datos en el lago con una estrategia de partición anual o mensual.

Estrategia de partición.

Consulte también

Azure Synapse Link para Dataverse