Del via


Forbered og transformer data i Microsoft Fabric

Etter at du har importert data i Microsoft Fabric, må du vanligvis rense, forme og berike det før analyse. Enten målet ditt er å forberede kuraterte tabeller i et lakehouse eller modellklare data i et lager, tilbyr Fabric både lavkode- og kode-først-transformasjonsmuligheter.

Denne artikkelen beskriver hvordan man bruker Dataflow Gen2 for visuell, lavkode-dataforberedelse, og hvordan man bruker notatbøker og brukerdatafunksjoner for avanserte, kodedrevne transformasjoner. Velg den tilnærmingen som passer best til din rolle, ferdighetssett og arbeidsmengde.

Transformér data med Dataflow Gen2

For lavkode-dataforberedelse, bruk Dataflow Gen2. Dataflow Gen2 bruker den kjente Power Query-opplevelsen , den samme teknologien som brukes i Excel og Power BI.

Med Power Query-grensesnittet kan du bruke filtre, utlede kolonner, aggregere data, slå sammen spørringer og utføre andre transformasjoner gjennom en visuell, trinnvis arbeidsflyt. I Fabric kan Dataflow Gen2 kjøres som en frittstående ETL-prosess eller som en aktivitet innenfor en pipeline.

For eksempel, etter at du har tatt inn rå salgsdata i et Lakehouse, kan du bruke en dataflyt for å fjerne duplikater, standardisere kolonnenavn, anvende forretningsregler og skrive de rensede resultatene til kuraterte tabeller i et gulllag i Lakehouse eller inn i et lager.

Dataflow Gen2 kjører i skyen ved å bruke Fabric-kapasitet, noe som gjør det mulig å skalere til store datasett og komplekse transformasjoner uten å kreve egendefinert kode. Dataanalytikere og BI-utviklere kan forberede data uavhengig, samtidig som de fortsatt skriver output til Lakehouse- eller Warehouse-tabeller som en del av Fabrics enhetlige lagringsgrunnlag.

Kode-først-forberedelse med notatbøker og brukerdatafunksjoner

For avanserte transformasjonsscenarier med kode, bruk notatbøker, Spark-jobber og brukerdatafunksjoner i Data Engineering-opplevelsen.

En Fabric-notatbok gir et Jupyter-lignende miljø i Fabric-portalen. Du kan skrive kode i språk som Python, T-SQL eller Scala for å jobbe med data lagret i OneLake.

Notatbøker egner seg godt til komplekse transformasjoner, tilpassede algoritmer, datavitenskapelige arbeidsflyter og integrasjon med eksterne biblioteker. For eksempel kan du laste inn rå JSON- eller Parquet-filer fra et innsjøhus inn i en Spark DataFrame, koble dem til andre datasett, bruke vindusaggler, berike dataene og lagre resultatene tilbake som Delta-tabeller i OneLake.

Notatbøker integreres direkte med innsjøhus og lagre i samme arbeidsområde. Du kan lese og skrive data uten ekstra legitimasjonskonfigurasjon fordi operasjonene kjører innenfor Fabric-sikkerhetskonteksten. Du kan også orkestrere og planlegge notatbøker ved å bruke notatblokkaktiviteten i Data Factory-pipelines.

Fabric-brukerdatafunksjoner gjør det mulig å kapsle inn gjenbrukbar Python-logikk i Fabric. Du kan bruke dem til å implementere avanserte forretningsregler, tilkalle eksterne tjenester eller bygge modulære transformasjonskomponenter. Brukerdatafunksjoner støtter PyPI-biblioteker, kan kobles til Fabric-datakilder, og kan eksponere REST-endepunkter for ekstern integrasjon. Disse egenskapene gjør dem egnet for bedriftsscenarier som krever gjenbrukbar, styrt transformasjonslogikk.

Du kan bruke User Data Functions fra notatbøker, pipelines, Activator-regler og som en del av Translytical-oppgaveflyter i Power BI-rapporter.