Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Para mejorar el rendimiento y la confiabilidad, Dataflow Gen2 usa elementos de almacenamiento provisional para almacenar datos intermedios durante la transformación de datos. En este artículo se describen los elementos de puesta en escena, los patrones ELT que desbloquean a través del modelo etapa una vez, referencia muchas veces y cómo administrar los datos que contienen.
¿Qué son los elementos de preparación?
Los elementos de almacenamiento provisional son ubicaciones de almacenamiento de datos intermedias usadas por Dataflow Gen2 para almacenar datos durante la transformación de datos. Estos elementos se conocen como "DataflowsStagingLakehouse" y "DataflowsStagingWarehouse". Los elementos de almacenamiento provisional se usan para almacenar datos intermedios durante la transformación de datos para mejorar el rendimiento. Estos elementos se crean automáticamente al crear el primer flujo de datos y se administran mediante Dataflow Gen2. Estos elementos están ocultos del usuario en el área de trabajo, pero podrían estar visibles en otras experiencias como Obtener datos o el explorador de Lakehouse. Se recomienda encarecidamente no acceder a los datos ni modificarlos directamente en los elementos de preparación, ya que podría provocar un comportamiento inesperado. Tampoco se admite el almacenamiento de datos en los elementos de almacenamiento provisional y podría provocar la pérdida de datos.
Patrones ELT: almacenar una vez, referenciar muchas veces
Además de proporcionar almacenamiento intermedio, la preparación desbloquea un conjunto de patrones ELT creados en una sola base: preparar una vez, referenciar muchas veces. Una consulta de origen se marca como almacenada provisionalmente, por lo que su salida se materializa en el almacenamiento provisional interno. A continuación, las consultas posteriores hacen referencia a esa consulta provisional en lugar de volver a leer el origen. Fast Copy es un acelerador opcional que hace que la consulta almacenada provisionalmente se rellene más rápido, pero no es lo que define el patrón.
El patrón es importante porque, una vez que los datos están preparados, las consultas posteriores pueden:
- Ejecute en una copia indizada y consultable sin volver a acceder al origen.
- Repliega filtros, uniones y agregaciones al punto de conexión de SQL de preparación en lugar de ejecutarlos en el motor de mashup.
- Bifurcación en varias transformaciones o destinos paralelos a partir de un único resultado materializado.
Casos de uso comunes
Los patrones siguientes se suelen superponer a una consulta de origen preconfigurada.
| Caso de uso | Description |
|---|---|
| Dar forma a los datos almacenados provisionalmente en modelos de análisis | Las consultas a las que se hace referencia dan forma a los datos preparados en tablas de hechos y de dimensiones, resúmenes, acumulaciones, o KPIs a través de la desduplicación, agrupación y generación de claves. |
| Optimización de computación desplegable | Las consultas referenciadas escritas sobre datos almacenados provisionalmente trasladan sus uniones, filtros y operaciones de agrupación al punto de conexión SQL de etapa, transfiriendo el cálculo al motor de almacén de datos en lugar del motor de mashup. Esto suele ser la mayor mejora de rendimiento que permite el entorno de pruebas. |
| Rama de auditoría y calidad de datos | Las consultas a las que se hace referencia validan o inspeccionan los datos almacenados provisionalmente (comprobaciones nulas, validación de restricciones, recuentos de filas) sin volver a leer el origen. |
| Expansión a varios destinos | Varias consultas a las que se hace referencia cargan un destino diferente del mismo origen almacenado provisionalmente (por ejemplo, un Lakehouse y un Warehouse). |
| Stage-then-merge | Cada origen se escenifica en su propia consulta y, a continuación, una consulta descendente referenciada combina los resultados escenificados, plegando la unión de nuevo al punto de conexión SQL del escenario. |
Cuando el entorno de preproducción no es la opción adecuada
La etapa de almacenamiento agrega costos de almacenamiento y una escritura adicional antes de que se ejecuten las consultas posteriores. Considere la posibilidad de omitirlo cuando:
- La transformación ya se integra de principio a fin en el sistema de origen, sin procesamiento en el motor de mashup.
- El flujo de datos tiene una única salida y ninguna ramificación descendente, validación o distribución ramificada.
- La latencia de la fuente es el cuello de botella y la fuente no se puede paralelizar a través de la etapa de pruebas.
Para obtener más instrucciones sobre cuándo habilitar o deshabilitar el almacenamiento provisional, consulte Procedimientos recomendados para obtener el mejor rendimiento con Dataflow Gen2.
Datos en elementos de almacenamiento provisional
Los elementos de ensayo no están diseñados para el acceso directo por parte de los usuarios. El flujo de datos Gen2 administra los datos de los elementos de almacenamiento provisional y garantiza que los datos están en un estado coherente. No se admite el acceso a datos en elementos de almacenamiento provisional directamente, ya que no se puede garantizar que los datos estén en un estado coherente. Si necesita acceder a los datos de los elementos de almacenamiento provisional, puede usar el conector de flujo de datos en Power BI, Excel u otros flujos de datos.
Importante
La API interna que sirve datos almacenados provisionalmente a los consumidores de nivel inferior (como modelos semánticos u otros flujos de datos mediante el conector de flujos de datos) puede experimentar tiempos de espera intermitentes. Estos tiempos de espera pueden provocar errores de actualización en los elementos de consumo, que a menudo aparecen como el error "La clave no coincide con ninguna fila de la tabla". Este error no indica un problema de datos. Significa que el back-end no pudo recuperar los resultados almacenados provisionalmente a tiempo.
Solución alternativa recomendada: Configure un destino de datos (Lakehouse o Warehouse) para el flujo de datos y actualice los elementos de bajada para leer desde ese destino directamente mediante el conector Lakehouse o Warehouse. Esto omite la API de almacenamiento provisional interno y mejora la confiabilidad de la actualización.
Para más información, consulte Limitaciones de Data Factory.
Una de las acciones siguientes puede forzar la eliminación de datos de los elementos de almacenamiento provisional:
- Deshabilitar el almacenamiento provisional en el flujo de datos y la actualización (después de 30 días se hace una recolección de elementos no utilizados de los datos).
- Eliminar el flujo de datos (quita directamente los datos).
- Eliminar el área de trabajo (elimina directamente StagingLakehouse y StagingWarehouse).
Implicaciones de costo del almacenamiento provisional
Los almacenes de datos Lakehouse y Warehouse almacenan datos intermedios como parte de la transformación del flujo de datos. El almacenamiento consumido por estos elementos de almacenamiento provisional se factura como parte del almacenamiento de OneLake. Esto significa que los datos almacenados en los elementos de almacenamiento provisional cuentan para el consumo general de almacenamiento de OneLake y los costos asociados.
Para administrar los costos de almacenamiento de forma eficaz:
- Supervisión del uso del almacenamiento provisional: tenga en cuenta que los datos de almacenamiento provisional se acumulan con cada actualización de flujo de datos hasta que se recolecte o quite explícitamente los elementos no utilizados.
- Deshabilitar el área de preparación cuando no sea necesario: si las transformaciones se integran al sistema de origen, es posible que no necesite habilitar el área de preparación. La deshabilitación del almacenamiento provisional reduce el consumo de almacenamiento.
- Limpiar flujos de datos sin usar: la eliminación de flujos de datos que ya no son necesarios elimina inmediatamente los datos de almacenamiento provisional asociados.
- Considere la frecuencia de actualización: las actualizaciones frecuentes con el almacenamiento provisional habilitado pueden dar lugar a un mayor consumo de almacenamiento. Equilibre las ventajas de rendimiento frente a los costos de almacenamiento.
Para obtener más información sobre los precios de OneLake Storage, consulte Precios de Microsoft Fabric.