ORC-muoto Data Factoryssa Microsoft Fabricissa

ORC (Optimized Row Columnar) on sarakkeiden muotoinen tallennusmuoto, joka on suunniteltu tehokkaaseen laajamittaiseen datan käsittelyyn Hadoop-työkuormissa. Tässä artikkelissa kuvataan, miten ORC-muoto konfiguroidaan kopiointitoimintaputkessa Data Factoryssa Microsoft Fabric -ohjelmassa.

Tuetut ominaisuudet

ORC-muotoa tuetaan seuraavissa toiminnoissa ja liittimillä lähteenä ja kohdesijaintina.

Luokka Liitin/toiminta
Tuettu liitin Amazon S3
Amazon S3 -yhteensopiva
Azure Blob -säilö
Azure Data Lake Storage Gen2
Azure-tiedostot
Tiedostojärjestelmä
FTP
Google-pilvitallennus
HTTP
Lakehouse-tiedostot
Oracle Cloud Storage
SFTP
Tuettu toiminta Aktiviteetin kopioiminen (lähde/kohde)
Hakutoiminta
GetMetadata-toiminta
Tietojen aktiviteetin poistaminen

ORC-muoto kopioinnissa

Jos haluat määrittää ORC-muodon, valitse yhteys putken kopiointitoiminnon lähteestä tai kohteesta ja valitse sitten ORC avattavasta tiedostomuoto-luettelosta. Valitse Asetukset , jos haluat muuttaa tämän muodon määritystä.

Näyttökuva, jossa näkyvät tiedostomuotoasetukset.

ORC-muoto lähteenä

Kun valitset Tiedostomuoto-osiossaAsetukset, seuraavat ominaisuudet näkyvät Ponnahdusikkunassa Tiedostomuotoasetukset-valintaikkunassa.

Näyttökuva, jossa näkyy ORC-tiedostomuodon lähde.

  • Pakkaustyyppi: Valitse avattavasta luettelosta ORC-tiedostojen lukuun käytettävä pakkauspakkauksenhallinta. Voit valita vaihtoehdon Ei mitään, zlib tai snappy.

ORC-muoto kohteena

Kun olet valinnut Asetukset, seuraavat ominaisuudet näkyvät Ponnahdusikkunassa Tiedostomuotoasetukset-valintaikkunassa.

Näyttökuva, jossa näkyy ORC-tiedostomuodon kohde.

  • Pakkaustyyppi: Valitse avattavasta luettelosta ORC-tiedostojen kirjoittamiseen käytettävä pakkauspakkauksenhallinta. Voit valita vaihtoehdon Ei mitään, zlib tai snappy.

Kohde-välilehden Lisäasetukset-kohdassa näytetään seuraavat ORC-muotoiluun liittyvät ominaisuudet.

  • Rivien enimmäismäärä tiedostoa kohden: Kun kirjoitat tietoja kansioon, voit kirjoittaa useisiin tiedostoihin ja määrittää tiedostokohtaisen rivien enimmäismäärän. Määritä kaikki rivit, jotka haluat kirjoittaa tiedostoa kohden.
  • Tiedostonimen etuliite: Käytettävissä, kun määritetään rivien enimmäismäärä tiedostoa kohden. Määritä tiedostonimen etuliite, kun kirjoitat tietoja useisiin tiedostoihin. Tuloksena on tämä malli: <fileNamePrefix>_00000.<fileExtension>. Jos tätä ei määritetä, tiedostonimen etuliite luodaan automaattisesti. Tämä ominaisuus ei päde, kun lähde on tiedostopohjainen säilö tai osioasetus käytössä oleva tietosäilö.

ORC:n kopiointiaktiivisuusominaisuudet

ORC lähteenä

Seuraavia ominaisuuksia tuetaan Kopioi toiminnon lähde -osassa ORC-muotoa käytettäessä.

Name Kuvaus Arvo Pakollinen JSON-komentosarjaominaisuus
Tiedostomuoto Käytettävä tiedostomuoto. ÖRKKI Kyllä tyyppi (alle datasetSettings):
Örkki
Pakkaustyyppi ORC-tiedostojen lukemiseen käytettävä pakkauspakkauksenhallinta. Ei ole
zlib
tyylikäs
En orcCompressionCodec:
ei mitään
zlib
tyylikäs

ORC kohteena

Seuraavat ominaisuudet ovat tuettuja kopiointiaktiviteetin kohde - osassa, kun käytät ORC-muotoa.

Name Kuvaus Arvo Pakollinen JSON-komentosarjaominaisuus
Tiedostomuoto Käytettävä tiedostomuoto. ÖRKKI Kyllä tyyppi (alle datasetSettings):
Örkki
Pakkaustyyppi ORC-tiedostojen kirjoittamiseen käytettävä pakkauspakkauksenhallinta. Ei ole
zlib
tyylikäs
En orcCompressionCodec:
ei mitään
zlib
tyylikäs
Rivien enimmäismäärä tiedostoa kohden Kun kirjoitat tietoja kansioon, voit kirjoittaa useisiin tiedostoihin ja määrittää tiedostokohtaisen rivien enimmäismäärän. Määritä kaikki rivit, jotka haluat kirjoittaa tiedostoa kohden. <rivien enimmäismäärä tiedostoa kohden> En maxRowsPerFile
Tiedostonimen etuliite Käytettävissä, kun tiedostoa kohden on määritetty enintään riviä. Määritä tiedostonimen etuliite, kun kirjoitat tietoja useisiin tiedostoihin. Tuloksena on tämä malli: <fileNamePrefix>_00000.<fileExtension>. Jos tätä ei määritetä, tiedostonimen etuliite luodaan automaattisesti. Tämä ominaisuus ei päde, kun lähde on tiedostopohjainen säilö tai osioasetus käytössä oleva tietosäilö. <tiedostonimen etuliite> En fileNamePrefix