Lataa data Microsoft Fabriciin

Microsoft Fabric tarjoaa useita tapoja tuoda dataa analytiikkaympäristöösi. Olipa kyse sitten suoratoistotapahtumien käsittelystä reaaliajassa, operatiivisten tietokantojen kopioimisesta, eräajoputkien orkestroinnista tai datan kopiointia ilman kopioimista, Fabric tarjoaa sisäänrakennettuja ominaisuuksia jokaisen tilanteen tukemiseksi. Fabric tukee myös hallittuja tiedonjakokuvioita OneLaken kautta, mahdollistaen vuokralaisten ja työpaikkojen välisen pääsyn reaaliaikaisiin tietoaineistoihin ilman päällekkäisyyttä.

Tässä artikkelissa kuvataan Fabricin ensisijaiset datan vastaanotto- ja siirtovaihtoehdot. Se kattaa:

  • Reaaliaikainen vastaanotto Eventstreamsilla ja Eventhousella
  • Eräorkestrointi Data Factory -putkistoilla ja kopiointityöllä
  • Lähes reaaliaikainen replikaatio peilauksella
  • Datavirtualisointi OneLake-pikanäppäimillä

Käytä tätä yleiskatsausta ymmärtääksesi, miten kukin lähestymistapa toimii, ja valitse strategia, joka parhaiten vastaa työkuorman vaatimuksiasi viiveen, muutoksen ja operatiivisen monimutkaisuuden osalta.

Reaaliaikainen tietojen käsittely

Eventstreamit ja Eventhouse-kohteet Real-Time Intelligencen työkuormassa tukevat suoratoistodatan skenaarioita. Eventstreamit vastaanottavat ja käsittelevät reaaliaikaisia tapahtumia, ja Eventhouset tallentavat ja kysyvät näitä tapahtumia laajassa mittakaavassa. Tyypillisesti käytät Eventstreamia datan keräämiseen ja reitittämiseen tapahtumataloon. Voit myös käyttää kutakin kykyä itsenäisesti tarpeidesi mukaan. Seuraava kaavio näyttää, miten reaaliaikaiset aineistot kulkevat Eventstreamiin ja Eventhouseen Fabricissa:

Kaavio reaaliaikaisista tietoaineistoista, jotka virtaavat Eventstreamiin tai Eventhouseen.

Tapahtumien vastaanotto ja reititys Eventstreamillä

Eventstream tarjoaa koodittoman kokemuksen tapahtumien vastaanottamiseen Fabriciin, virran sisäisten muunnoksien toteuttamiseen ja datan reitittämiseen useisiin kohteisiin. Eventstream toimii reaaliaikaisena syöttöputkena. Luot Eventstreamin ja lisäät yhden tai useamman lähdeliittimen. Fabric tukee monia suoratoistolähteitä, mukaan lukien sisäiset Fabric-tapahtumat, kuten Fabric-työtilatapahtumat, OneLake-tiedostotapahtumat ja putkistotehtävätapahtumat.

Kun tapahtumat alkavat sujua, voit käyttää vapaaehtoisia reaaliaikaisia muunnoksia vedä-ja-pudota -editorilla. Esimerkiksi voit suodattaa tapahtumia, laskea aikaikkunan aggregaatioita, liittyä useisiin virtoihin tai muokata kenttiä ilman koodia.

Voit lähettää käsitellyn striimin yhteen tai useampaan tuettuun kohteeseen. Eventstreamit voivat paljastaa Apache Kafka -päätepisteet mukautettujen päätepisteiden ja -kohteiden kautta. Tämä ominaisuus mahdollistaa Kafka-tuottajille tapahtumien striimauksen Fabriciin ja Kafka-kuluttajille Fabricin tapahtumien kuluttamisen.

Eventstreamit eivät tallenna dataa pysyvästi. He lähettävät tapahtumia muistin kautta ja välittävät ne konfiguroituihin kohteisiin. Tämä rakenne tekee Eventstreameista sopivia reaaliaikaisiin purku-, muunnos-, lataus- (ETL) -skenaarioihin sekä suoratoistodatan jakamiseen useille kohteille. Esimerkiksi voit vastaanottaa telemetriaa esineiden internetin (IoT) antureista, suodattaa ja yhdistää dataa reaaliajassa, lähettää tarkennetun virran Eventhouseen analytiikkaa varten ja reitittää poikkeamatapahtumat Aktivaattorille hälytyksiä varten.

Syötä dataa suoraan Eventhouseen

Tapahtumapaikat voivat vastaanottaa dataa suoraan useista lähteistä. Fabric sisältää integroidun Get Data -kokemuksen Eventhousessa. Viihtotoiminto yhdistää lähteisiin kuten paikallisiin tiedostoihin, Azure Storageen, Amazon S3:een, Azure Event Hubsiin ja OneLakeen. Voit ladata dataa Kusto Query Language (KQL) -tietokantataulukkoon reaaliajassa tai eräajotilassa käyttämällä Eventhousen käyttöliittymää.

Voit myös valita olemassa olevan tapahtumavirran Fabricissa lähteeksi. Esimerkiksi, jos käytät Eventstreamia, joka vastaanottaa dataa IoT Hubista tai Kafkasta, voit reitittää sen ulostulon suoraan KQL-tietokantatauluun ilman lisäasetuksia.

Erädatan vastaanotto

Data Factory tarjoaa ensisijaisen kokemuksen perinteisille extract, transform, load (ETL) ja extract, load, transform (ELT) -putkille. Se sisältää suuren liitinkirjaston. Fabric Data Factory tarjoaa listan natiiviliittimistä paikallisiin ja pilvitietovarastoihin, mukaan lukien tietokannat, ohjelmisto palveluna (SaaS) -sovellukset ja tiedostopohjaiset järjestelmät. Nämä liittimet auttavat yhdistämään lähes mihin tahansa lähdejärjestelmään.

Orkestroi datan siirto putkistoilla

Voit rakentaa putkia , jotka käyttävät näitä liittimiä datan kopioimiseen tai siirtämiseen OneLakeen tai analytiikkavarastoihin. Tämä lähestymistapa tukee:

  • Rakenteettomat aineistot, kuten kuvat, video ja ääni
  • Puolirakenteelliset aineistot, kuten JSON, CSV ja XML
  • Rakenteelliset aineistot tuetuista relaatiotietokantajärjestelmistä

Putkessa yhdistetään useita orkestrointikomponentteja, kuten:

Voit ajaa putkea tilauksesta, aikataulun mukaan tai tapahtumien mukaan. Esimerkiksi voit ajoittaa putken toimimaan kahden tunnin välein arkipäivisin tai käynnistää sen, kun uusi tiedosto luodaan OneLakessa.

Yksinkertaista datan siirtoa kopiointityöllä

Kopiointityö tukee useita datan toimitusmalleja, kuten massakopiointia, inkrementaalista kopiointia ja muutosten tietojen keräämistä (CDC). Voit käyttää Kopiointityötä siirtääksesi dataa lähteestä OneLakeen luomatta putkea, samalla kun käytät edistyneitä konfiguraatioasetuksia. Kopiointityö tukee monia lähteitä ja kohteita. Se tarjoaa enemmän hallintaa kuin peilaus ja vähemmän operatiivista monimutkaisuutta kuin putkien hallinta, jotka käyttävät kopiointitoimintoa.

Datan replikointi peilauksella

Peilaus replikoi dataa ulkoisista järjestelmistä Fabriciin lähes reaaliajassa automaattisella asetuksella. Yhdistät ulkoiseen järjestelmään, kuten Azure SQL Databaseen, SQL Serveriin, Oracleen, SAP tai Snowflakeen. Fabric replikoi jatkuvasti dataa tai metatietoja OneLakeen. Peilaus tukee kolmea tyyppiä:

  • Tietokannan peilaus replikoi kokonaisia tietokantoja ja tauluja.
  • Metatietojen peilaus synkronoi metatiedot, kuten luetteloiden nimet, skeemat ja taulukot, sen sijaan, että dataa siirrettäisiin fyysisesti. Tämä lähestymistapa käyttää pikakuvakkeita, jotta data pysyy lähdejärjestelmässään ja on silti saatavilla Fabricissa.
  • Avoin peilaus käyttää avoimen Delta Lake -taulukkomuotoa. Kehittäjät voivat kirjoittaa sovellusmuutoksia suoraan peilattuun tietokantakohteeseen OneLakessa julkisten rajapintojen avulla.

Fabric kuuntelee lähdejärjestelmän muutoksia (muutostiedon kaappauksen tai vastaavien menetelmien kautta) ja soveltaa nämä muutokset lähes reaaliajassa peilattuun kopioon. Tuloksena on reaaliaikainen, kyselykelpoinen aineisto, joka pysyy synkassa matalan viiveen kanssa ilman monimutkaisia ETL-putkia.

Peilaus tukee tällä hetkellä useita lähteitä, mukaan lukien Azure SQL Database, SQL Managed Instance, Azure Cosmos DB, Azure Database for PostgreSQL, Google BigQuery, Oracle, SAP, Snowflake ja SQL Server. Se tukee myös kumppaniratkaisujen tietolähteitä, jotka ovat toteuttaneet Open Mirroring API:n. Peilatut tiedot tallennetaan OneLakeen up-to-päivämäärän Delta-tauluina. Fabric ylläpitää näitä taulukoita automaattisesti, jotta voit käyttää niitä reaaliaikaiseen analytiikkaan tai yhdistää ne muihin Fabric-tietoihin. Tämä ominaisuus tukee hybriditransaktionaalisia ja analyyttisiä käsittelyskenaarioita, joissa operatiivinen data virtaa jatkuvasti analytiikkaalustallesi.

Peilaus poistaa tarpeen rakentaa inkrementaalisia kuormitusputkia manuaalisesti. Peilauskustannusten näkökulmasta laskentaoperaatiot, jotka pitävät peilatut tietokannat synkassa, eivät käytä kapasiteettiyksiköitä (CU) Fabric-kapasiteetistasi. Peilatun datan tallennus OneLakessa on myös vapaa Fabric-SKU:n teratavurajaan asti (esimerkiksi F64 sisältää 64 TB ilmaista peilattua tietokantatallennusta).

Pääsy ulkoisiin tietoihin pikanäppäimillä

Fabric tarjoaa pikakuvakkeita datan virtualisoinnin mahdollistamiseksi. OneLaken pikakuvake viittaa ulkoiseen järjestelmään, kuten Azure Data Lake Storage Gen2:een, Amazon S3:een tai SharePointiin, tallennettuun dataan. Pikakuvakkeet voivat myös viitata dataan OneLaken sisällä, mukaan lukien dataa muista työtiloista ja dataa, jota jaetaan vuokralaisten välillä OneLake-datan jakamisen kautta. Datan kopioimisen sijaan pikakuvakkeet mahdollistavat ulkoisten ja sisäisten tiedostojen viitamisen osana yhtenäistä datajärveä. Voit kysyä tai liittää ulkoista dataa paikalliseen dataan ilman alkuperäistä siirtoa. Tämä kopioimatta käsittelyyn perustuva lähestymistapa on hyödyllinen, kun datan asuinpaikkavaatimukset tai kopiointiongelmat estävät datan siirtämisen. Seuraava kaavio näyttää, miten pikakuvakkeet yhdistävät ulkoiset tallennusjärjestelmät Fabric-kohteisiin ilman datan kopiointia:

Kaavio ulkoisen tallennuksen pikanäppäimistä, arkkitehtuurista.

OneLake pystyy tunnistamaan viitatun tietotyypin pikakuvakkeen avulla ja soveltamaan joko tiedostomuunnoksia tai tekoälymuunnoksia ilman putkistoa tai mukautettua koodia. Nämä muutokset toimivat kaikilla pikakuvakkeilla, mukaan lukien muiden vuokralaisten jakamat tiedot OneLake-datan jakamisen kautta. OneLake ylläpitää syntyvää Delta-taulukkoa automaattisesti synkronoituna lähteen kanssa. Esimerkiksi voit muuntaa .csv tiedostoja Delta-taulukoiksi tai soveltaa tekoälypohjaista sentimenttianalyysiä kansion .txt tiedostoihin.

Yhdistettynä peilaukseen, pikakuvakkeet antavat joustavia datan käyttömalleja. Voit pitää datan paikallaan pikakuvakkeiden avulla, tai voit replikoida dataa peilauksen avulla. Molemmissa tapauksissa data on valmis Fabric-analytiikkatyökaluihin ilman monimutkaista ETL:ää.

Päätösopas: Tietojen siirtostrategian valitseminen

Microsoft Fabric tarjoaa useita vaihtoehtoja datan tuomiseen Fabriciin, kuten Eventstreamit reaaliaikaiseen käsittelyyn, peilauksen, putkistot kopiointitoimintoineen, kopiointitehtävät ja pikakuvakkeet. Jokainen vaihtoehto tarjoaa erilaisen tasapainon ohjauksen, automaation ja operatiivisen monimutkaisuuden välillä. Kun tarvitset reaaliaikaista, hallittua pääsyä jo OneLakessa olevaan dataan (olipa se samassa vuokralaisessa tai jaettu toiselta organisaatiolta), harkitse OneLaken datanjakamisen yhdistämistä pikanäppäimiin sen sijaan, että replikoisit dataa.

Ohjeita skenaarioosi sopivan lähestymistavan valintaan löydät Microsoft Fabric -päätösoppaasta: Valitse datan siirtostrategia.