Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Microsoft Fabric tillhandahåller flera sätt att föra in data i din analysmiljö. Oavsett om du behöver bearbeta strömmande händelser i realtid, replikera operativa databaser, samordna batchpipelines eller komma åt data utan att kopiera dem, erbjuder Fabric inbyggda funktioner som stöder varje scenario. Fabric har också stöd för reglerade datadelningsmönster via OneLake, vilket ger åtkomst mellan klientorganisationer och arbetsytor till livedatauppsättningar utan duplicering.
Den här artikeln beskriver de primära alternativen för datainförsel och datatransport i Fabric. Den omfattar:
- Inmatning i realtid med Eventstreams och Eventhouse
- Batchorkestrering med Data Factory-pipelines och Copy-uppgift
- Replikering i nära realtid med spegling
- Datavirtualisering med OneLake-genvägar
Använd den här översikten för att förstå hur varje metod fungerar och välj den strategi som bäst passar dina arbetsbelastningskrav för svarstid, omvandling och driftskomplexitet.
Datainmatning i realtid
Eventstreams- och Eventhouse-objekt i Real-Time Intelligence-arbetsflödet stöder scenarier med strömmande data. Eventstreams matar in och bearbetar realtidshändelser, och Eventhouses lagrar och frågar efter dessa händelser i stor skala. Du använder vanligtvis en Eventstream för att samla in och dirigera data till ett Eventhouse. Du kan också använda varje funktion oberoende av dina behov. Följande diagram visar hur realtidsdatauppsättningar flödar till Eventstream och Eventhouse i Fabric.
Mata in och dirigera händelser med Eventstream
Eventstream ger en kodlös upplevelse för att importera händelser i Fabric, tillämpa transformeringar i strömmen och dirigera data till flera mål. En Eventstream fungerar som en pipeline för inmatning i realtid. Du skapar en Eventstream och lägger till en eller flera källanslutningar. Fabric stöder många strömmande källor, inklusive interna Fabric-händelser såsom Fabric arbetsytehändelser, OneLake-filhändelser och pipeline-jobbhändelser.
När händelserna har börjat flöda kan du använda valfria realtidstransformeringar via en dra och släpp-redigerare. Du kan till exempel filtrera händelser, beräkna tidsfönsteraggregat, ansluta flera strömmar eller omforma fält utan att skriva kod.
Du kan skicka den bearbetade dataströmmen till ett eller flera mål som stöds. Eventstreams kan exponera Apache Kafka-slutpunkter via anpassade slutpunktskällor och mål. Med den här funktionen kan Kafka-producenter strömma händelser till Fabric- och Kafka-konsumenter för att använda händelser från Fabric.
Eventstreams lagrar inte data permanent. De strömmar händelser via minnet och vidarebefordrar dem till konfigurerade mål. Den här designen gör Eventstreams lämpligt för scenarier med extrahering, transformering, inläsning (ETL) i realtid och för distribution av strömmande data till flera mål. Du kan till exempel mata in telemetri från IoT-sensorer (Internet of Things), filtrera och aggregera data i realtid, skicka den raffinerade strömmen till ett Eventhouse för analys och dirigera avvikelsehändelser till Activator för avisering.
Mata in data direkt till Eventhouse
Eventhouses kan mata in data direkt från flera källor. Fabric innehåller en integrerad Hämta dataupplevelse i Eventhouse. Guiden ansluter till källor som lokala filer, Azure Storage, Amazon S3, Azure Event Hubs och OneLake. Du kan läsa in data i en KQL-databastabell (Kusto Query Language) i realtid eller batchläge med hjälp av Användargränssnittet för Eventhouse.
Du kan också välja en befintlig Eventstream i Fabric som källa. Om du till exempel använder en Eventstream som matar in data från IoT Hub eller Kafka kan du dirigera dess utdata direkt till en KQL-databastabell utan ytterligare konfiguration.
Batchdatainmatning
Data Factory ger den primära upplevelsen för traditionella ETL-pipelines (extract, transform, load) och ELT-pipelines (extract, load, transform). Den innehåller ett omfattande bibliotek för anslutningar. Fabric Data Factory innehåller en lista över inbyggda anslutningsappar för lokala och molnbaserade datalager, inklusive databaser, saaS-program (programvara som en tjänst) och filbaserade system. Dessa kontakter gör att du kan ansluta till nästan alla källsystem.
Synkronisera dataflytt med pipelines
Du kan skapa pipelines som använder dessa anslutningar för att kopiera eller flytta data till OneLake eller till analyslager. Den här metoden stöder:
- Ostrukturerade datauppsättningar som bilder, video och ljud
- Halvstrukturerade datauppsättningar som JSON, CSV och XML
- Strukturerade datauppsättningar från relationsdatabassystem som stöds
I en pipeline kombinerar du flera orkestreringskomponenter, inklusive:
- Dataförflyttningsaktiviteter, till exempel Kopiera data och Kopiera jobb
- Datatransformeringsaktiviteter, till exempel Dataflöde Gen2, Ta bort data, Fabric Notebook och SQL-skript
- Kontrollera flödesaktiviteter, till exempel ForEach, Lookup, Set Variable och Webhook
Du kan köra en pipeline på begäran, enligt ett schema eller som svar på händelser. Du kan till exempel schemalägga en pipeline så att den körs varannan timme under vardagar eller utlösa den när en ny fil skapas i OneLake.
Förenkla dataflytten med Copy job
Kopieringsjobbet stöder flera dataleveransmönster, inklusive masskopiering, inkrementell kopiering och CDC-replikering (Change Data Capture). Du kan använda Kopieringsjobb för att flytta data från en källa till OneLake utan att skapa en pipeline, samtidigt som du har åtkomst till avancerade konfigurationsalternativ. Kopieringsjobbet stöder många källor och mål. Det ger mer kontroll än spegling och mindre driftskomplexitet än hantering av pipelines som använder kopieringsaktiviteten.
Replikera data med spegling
Spegling replikerar data från externa system till Fabric-plattformen i nästan realtid med automatiserad konfiguration. Du ansluter till ett externt system, till exempel Azure SQL Database, SQL Server, Oracle, SAP eller Snowflake. Fabric replikerar kontinuerligt data eller metadata till OneLake. Spegling stöder tre typer:
- Databasspegling replikerar hela databaser och tabeller.
- Metadataspegling synkroniserar metadata som katalognamn, scheman och tabeller i stället för att fysiskt flytta data. Den här metoden använder genvägar så att data finns kvar i källsystemet samtidigt som den fortfarande är tillgänglig i Fabric.
- Öppen spegling använder det öppna Delta Lake-tabellformatet. Utvecklare kan skriva programändringar direkt till ett speglat databasobjekt i OneLake med hjälp av offentliga API:er.
Fabric lyssnar efter ändringar i källsystemet (genom ändringsdataavbildning eller liknande metoder) och tillämpar ändringarna i nära realtid på den speglade kopian. Resultatet är en live, frågebar datauppsättning som förblir synkroniserad med låg svarstid, utan komplexa ETL-pipelines.
Spegling stöder för närvarande olika källor, inklusive Azure SQL Database, SQL Managed Instance, Azure Cosmos DB, Azure Database for PostgreSQL, Google BigQuery, Oracle, SAP, Snowflake och SQL Server. Den stöder också datakällor från partnerlösningar som har implementerat API:et för öppen spegling. Speglade data lagras i OneLake som aktuella Delta-tabeller. Fabric underhåller dessa tabeller automatiskt så att du kan använda dem för realtidsanalys eller kombinera dem med andra Fabric-data. Den här funktionen stöder scenarier för hybridtransaktions- och analysbearbetning, där driftdata kontinuerligt flödar till din analysplattform.
Spegling tar bort behovet av att skapa inkrementella belastningspipelines manuellt. Ur ett speglingskostnadsperspektiv använder beräkningsåtgärder som håller speglade databaser synkroniserade inte kapacitetsenheter (CUs) från din Fabric-kapacitet. Speglad datalagring i OneLake är också fri upp till terabytegränsen i din Fabric SKU (till exempel innehåller F64 64 TB ledigt speglad databaslagring).
Få åtkomst till externa data med genvägar
Ett datavirtualiseringslager tillhandahåller genvägar för att aktivera datavirtualisering. En genväg i OneLake refererar till data som lagras i ett externt system, till exempel Azure Data Lake Storage Gen2, Amazon S3 eller SharePoint. Genvägar kan också referera till data i själva OneLake, inklusive data från andra arbetsytor, och data som delas mellan hyresgäster genom OneLake-datadelning. I stället för att kopiera data tillåter genvägar att OneLake refererar till externa och interna filer som en del av den enhetliga datasjön. Du kan fråga eller koppla externa data med lokala data utan att utföra en inledande migrering. Den här metoden för inmatning utan kopiering är användbar när dataplaceringskrav eller dupliceringsproblem förhindrar att data flyttas. Följande diagram visar hur genvägar ansluter externa lagringssystem till Infrastrukturobjekt utan att kopiera data:
OneLake kan identifiera datatypen som refereras av en genväg och tillämpa antingen filtransformeringar eller AI-transformeringar utan att kräva en pipeline eller anpassad kod. Dessa omvandlingar fungerar på alla genvägsmål, inklusive data som delas från andra klienter via OneLake-datadelning. OneLake underhåller den resulterande Delta-tabellen i synkronisering med källan automatiskt. Du kan till exempel konvertera .csv filer till Delta-tabeller eller tillämpa AI-baserad attitydanalys på .txt filer i en mapp.
I kombination med spegling ger genvägar dig flexibla dataåtkomstmönster. Du kan behålla data på plats med hjälp av genvägar, eller så kan du replikera data med hjälp av spegling. I båda fallen är data redo för Fabric-analysverktyg utan komplex ETL.
Beslutsguide: Välj en strategi för dataflytt
Microsoft Fabric erbjuder flera alternativ för att föra in data i Fabric, inklusive Eventstreams för bearbetning av data i realtid, spegling, pipelines med kopieringsaktiviteter, kopieringsjobb och genvägar. Varje alternativ erbjuder en annan balans mellan kontroll, automatisering och driftskomplexitet. När du behöver livestyrd åtkomst till data som redan finns i OneLake (oavsett om de finns i samma klientorganisation eller delas från en annan organisation) kan du överväga att kombinera OneLake-datadelning med genvägar i stället för att replikera data.
Vägledning om hur du väljer lämplig metod för ditt scenario finns i Beslutsguide för Microsoft Fabric: Välj en strategi för dataflytt.