Descripción de los almacenamientos de datos en Fabric

Completado

Ahora que comprende los fundamentos de los almacenes de datos, vamos a explorar lo que Microsoft Fabric proporciona para el almacenamiento de datos en un data warehouse.

Describir un almacén de datos Fabric

Un almacén de datos de Fabric es una base de datos relacional a escala empresarial que está completamente administrada y se basa en OneLake. Proporciona funcionalidades completas de T-SQL transaccionales, incluidas las instrucciones DDL (CREATE, ALTER, DROP) y las instrucciones DML (INSERT, UPDATE, DELETE, MERGE), con el cumplimiento completo de ACID para la coherencia de los datos.

Los datos se almacenan en formato Delta abierto en OneLake, lo que significa que otras cargas de trabajo de Fabric pueden acceder a los mismos datos sin duplicación. Use T-SQL para crear tablas, cargar datos, crear vistas de compilación y procedimientos almacenados y realizar transformaciones, todo ello dentro de una experiencia de SQL conocida.

Entre las funcionalidades clave se incluyen:

  • Compatibilidad completa con T-SQL: escriba instrucciones DDL y DML, incluyendo MERGE para escenarios de upsert, utilizando la sintaxis familiar de SQL Server.
  • Totalmente administrado - no hay infraestructura que configurar. El cómputo se escala automáticamente e independientemente del almacenamiento.
  • Integración de OneLake : los datos de almacenamiento se almacenan en formato Delta y son accesibles por otras cargas de trabajo de Fabric sin duplicación.
  • Consulta entre bases de datos: consulta de datos entre almacenes de datos y almacenes de lago de datos sin copiar datos. Utilice la nomenclatura de tres partes (database.schema.table) para combinar tablas del almacén de datos con tablas Lakehouse en una sola consulta.
  • Las herramientas familiares - Conéctese con SQL Server Management Studio (SSMS), Azure Data Studio o cualquier cliente SQL a través de conexiones TDS estándar.
  • Asistencia deCopilot - Copilot para Data Warehouse genera consultas SQL a partir de lenguaje natural, proporciona finalización de código a medida que escribe y puede explicar o corregir consultas existentes en el editor de SQL.

Almacén frente a punto de conexión de análisis SQL

Las áreas de trabajo de Fabric pueden contener dos tipos de elementos basados en SQL que sirven para distintos propósitos.

Capacidad Almacén Punto de conexión de análisis SQL
Leer datos
Escribir datos (INSERT, UPDATE, DELETE, MERGE) No
Creación de tablas (DDL) No
Creación de vistas y procedimientos almacenados
Origen de datos Tablas de almacenamiento nativo Tablas delta de Lakehouse

Use un almacenamiento cuando necesite funcionalidades completas de T-SQL de lectura y escritura. Utilice el punto de conexión de análisis SQL cuando necesite acceso SQL de solo lectura a los datos del almacén de lago de datos.

Creación de un data warehouse

Puede crear un data warehouse en Fabric desde el create hub o dentro de un workspace. Después de crear un almacén vacío, puede agregar tablas, vistas y otros objetos.

Captura de pantalla de la interfaz de usuario de Fabric con una flecha que apunta al centro de creación.

Una vez creado el almacenamiento, puede empezar a crear tablas y cargar datos mediante sql query editor en el portal de Fabric.

Ingesta de datos en un almacenamiento

Hay varias maneras de cargar datos en un almacén de datos de Fabric:

  • COPY INTO: carga masiva de datos desde archivos externos (CSV, Parquet) en almacenamiento de Azure hacia tablas del almacén de datos.
  • OPENROWSET: consulta los archivos directamente desde ubicaciones externas de almacenamiento o OneLake para análisis ad hoc o ingesta, sin crear tablas primero.
  • Pipelines y flujos de datos; use los pipelines de Data Factory o Dataflows Gen2 para el movimiento y la transformación orquestados de datos.
  • Consultas entre bases de datos: consulta de tablas del almacén de lago de datos directamente desde el almacén mediante la nomenclatura de tres partes, sin copiar datos.

Puede usar el COPY INTO comando T-SQL para cargar datos de forma masiva desde archivos. Por ejemplo, la siguiente instrucción carga datos de un archivo CSV en una tabla:

COPY INTO dbo.Region
FROM 'https://mystorageaccount.blob.core.windows.net/data/Region.csv'
WITH (
    FILE_TYPE = 'CSV',
    CREDENTIAL = (
        IDENTITY = 'Shared Access Signature',
        SECRET = 'xxx'
    ),
    FIRSTROW = 2
)
GO

Captura de pantalla del editor de consultas SQL con una consulta abierta.

Sugerencia

Si tiene tablas en un almacén de lago de datos que desea consultar desde el almacén sin realizar cambios, use en su lugar consultas entre bases de datos. No es necesario copiar los datos.

Creación de tablas y carga de datos

Después de crear un almacén y elegir un método de ingesta, el siguiente paso es definir las tablas y cargar datos en ellos.

Las tablas se crean mediante instrucciones T-SQL CREATE TABLE . Defina columnas con tipos de datos adecuados para cargas de trabajo de análisis.

CREATE TABLE dbo.DimCustomer
(
    CustomerKey INT NOT NULL,
    CustomerAltKey NVARCHAR(10) NOT NULL,
    CustomerName NVARCHAR(100) NOT NULL,
    Region NVARCHAR(50) NULL
);
GO

CREATE TABLE dbo.FactSales
(
    SalesKey INT NOT NULL,
    CustomerKey INT NOT NULL,
    ProductKey INT NOT NULL,
    DateKey INT NOT NULL,
    SalesAmount DECIMAL(10,2) NOT NULL,
    Quantity INT NOT NULL
);
GO

Elija tipos de datos que equilibren la precisión con la eficiencia de almacenamiento. Se usa INT para las columnas de clave, NVARCHAR para el texto que puede incluir caracteres especiales y DECIMAL para los valores financieros que requieren precisión.

Uso de tablas de almacenamiento provisional para la carga de datos

Un patrón común en el almacenamiento de datos consiste en colocar datos sin procesar en tablas de almacenamiento provisional antes de transformarlos y cargarlos en tablas de dimensiones y hechos finales. Las tablas de staging reflejan la estructura de los datos de origen y actúan como un área temporal de almacenamiento.

Después de cargar datos en tablas de almacenamiento provisional mediante COPY INTO o canalizaciones, puede transformarlos e insertarlos en el modelo dimensional:

INSERT INTO dbo.FactSales (SalesKey, CustomerKey, ProductKey, DateKey, SalesAmount, Quantity)
SELECT
    s.OrderID,
    c.CustomerKey,
    p.ProductKey,
    d.DateKey,
    s.Amount,
    s.Qty
FROM dbo.StgSales AS s
INNER JOIN dbo.DimCustomer AS c ON s.CustomerID = c.CustomerAltKey
INNER JOIN dbo.DimProduct AS p ON s.ProductID = p.ProductAltKey
INNER JOIN dbo.DimDate AS d ON s.OrderDate = d.DateValue;
GO

Este patrón mantiene intactos los datos de origen mientras aplica reglas de negocio y consultas clave durante el proceso de carga.

Descripción de los clones de tabla

Puede crear clones de tabla de copia cero en un almacén de datos Fabric. Los clones copian los metadatos de las tablas mientras siguen haciendo referencia a los mismos archivos de datos subyacentes en OneLake. Los datos en sí no están duplicados, lo que mantiene bajos los costos de almacenamiento.

En el ejemplo de código siguiente se muestra cómo crear un clon con T-SQL:

--Clone creation within the same schema
CREATE TABLE dbo.Employee AS CLONE OF dbo.EmployeeUSA;

Los clones de tabla son útiles para el desarrollo y las pruebas, la recuperación de datos después de una versión con errores y la conservación de datos en momentos específicos para los informes históricos.

Sugerencia

Consulte la documentación de la tabla Clone en Microsoft Fabric para obtener más información.

Ahora que comprende las funcionalidades de almacenamiento de Fabric, vamos a explorar cómo consultar y transformar los datos.