Datos en elementos de almacenamiento provisional de Dataflow Gen2

Para mejorar el rendimiento y la confiabilidad, Dataflow Gen2 usa elementos de almacenamiento provisional para almacenar datos intermedios durante la transformación de datos. En este artículo se proporciona información sobre qué son los elementos de almacenamiento provisional y cómo controlar los datos dentro de ellos.

¿Qué son los elementos de preparación?

Los elementos de almacenamiento provisional son ubicaciones de almacenamiento de datos intermedias usadas por Dataflow Gen2 para almacenar datos durante la transformación de datos. Estos elementos se conocen como "DataflowsStagingLakehouse" y "DataflowsStagingWarehouse". Los elementos de almacenamiento provisional se usan para almacenar datos intermedios durante la transformación de datos para mejorar el rendimiento. Estos elementos se crean automáticamente al crear el primer flujo de datos y se administran mediante Dataflow Gen2. Estos elementos están ocultos del usuario en el área de trabajo, pero podrían estar visibles en otras experiencias como Obtener datos o el explorador de Lakehouse. Se recomienda encarecidamente no acceder a los datos ni modificarlos directamente en los elementos de preparación, ya que podría provocar un comportamiento inesperado. Tampoco se admite el almacenamiento de datos en los elementos de almacenamiento provisional y podría provocar la pérdida de datos.

Datos en elementos de almacenamiento provisional

Los elementos de ensayo no están diseñados para el acceso directo por parte de los usuarios. El flujo de datos Gen2 administra los datos de los elementos de almacenamiento provisional y garantiza que los datos están en un estado coherente. No se admite el acceso a datos en elementos de almacenamiento provisional directamente, ya que no se puede garantizar que los datos estén en un estado coherente. Si necesita acceder a los datos de los elementos de almacenamiento provisional, puede usar el conector de flujo de datos en Power BI, Excel u otros flujos de datos.

Importante

La API interna que sirve datos almacenados provisionalmente a los consumidores de nivel inferior (como modelos semánticos u otros flujos de datos mediante el conector de flujos de datos) puede experimentar tiempos de espera intermitentes. Estos tiempos de espera pueden provocar errores de actualización en los elementos de consumo, que a menudo aparecen como el error "La clave no coincide con ninguna fila de la tabla". Este error no indica un problema de datos. Significa que el back-end no pudo recuperar los resultados almacenados provisionalmente a tiempo.

Solución alternativa recomendada: Configure un destino de datos (Lakehouse o Warehouse) para el flujo de datos y actualice los elementos de bajada para leer desde ese destino directamente mediante el conector Lakehouse o Warehouse. Esto omite la API de almacenamiento provisional interno y mejora la confiabilidad de la actualización.

Para más información, consulte Limitaciones de Data Factory.

Una de las acciones siguientes puede forzar la eliminación de datos de los elementos de almacenamiento provisional:

  • Deshabilitar el almacenamiento provisional en el flujo de datos y la actualización (después de 30 días se hace una recolección de elementos no utilizados de los datos).
  • Eliminar el flujo de datos (quita directamente los datos).
  • Eliminar el área de trabajo (elimina directamente StagingLakehouse y StagingWarehouse).

Implicaciones de costo del almacenamiento provisional

Los almacenes de datos Lakehouse y Warehouse almacenan datos intermedios como parte de la transformación del flujo de datos. El almacenamiento consumido por estos elementos de almacenamiento provisional se factura como parte del almacenamiento de OneLake. Esto significa que los datos almacenados en los elementos de almacenamiento provisional cuentan para el consumo general de almacenamiento de OneLake y los costos asociados.

Para administrar los costos de almacenamiento de forma eficaz:

  • Supervisión del uso del almacenamiento provisional: tenga en cuenta que los datos de almacenamiento provisional se acumulan con cada actualización de flujo de datos hasta que se recolecte o quite explícitamente los elementos no utilizados.
  • Deshabilitar el área de preparación cuando no sea necesario: si las transformaciones se integran al sistema de origen, es posible que no necesite habilitar el área de preparación. La deshabilitación del almacenamiento provisional reduce el consumo de almacenamiento.
  • Limpiar flujos de datos sin usar: la eliminación de flujos de datos que ya no son necesarios elimina inmediatamente los datos de almacenamiento provisional asociados.
  • Considere la frecuencia de actualización: las actualizaciones frecuentes con el almacenamiento provisional habilitado pueden dar lugar a un mayor consumo de almacenamiento. Equilibre las ventajas de rendimiento frente a los costos de almacenamiento.

Para obtener más información sobre los precios de OneLake Storage, consulte Precios de Microsoft Fabric.