Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
ORC (columna de fila optimizada) es un formato de almacenamiento en columnas diseñado para un procesamiento eficaz de datos a gran escala en cargas de trabajo de Hadoop. En este artículo se describe cómo configurar el formato ORC en una canalización de actividad de copia en Data Factory en Microsoft Fabric.
Capacidades compatibles
El formato ORC es compatible con las siguientes actividades y conectores como origen y destino.
| Categoría | Conector/Actividad |
|---|---|
| Conector admitido | Amazon S3 |
| Compatible con Amazon S3 | |
| Azure Blob Storage | |
| Azure Data Lake Storage Gen2 | |
| Archivos de Azure | |
| Sistema de archivos | |
| FTP | |
| Google Cloud Storage | |
| HTTP | |
| Archivos de Lakehouse | |
| Oracle Cloud Storage | |
| SFTP | |
| Actividad compatible | Copiar actividad (origen/destino) |
| Actividad de búsqueda | |
| Actividad GetMetadata | |
| Actividad de eliminación de datos |
Formato ORC en la actividad de copia
Para configurar el formato ORC, elija su conexión en el origen o el destino de una actividad de copia de canalización y, a continuación, seleccione ORC en la lista desplegable de Formato de archivo. Seleccione Configuración para una configuración adicional de este formato.
Formato ORC como origen
Después de seleccionar Configuración en la sección Formato de archivo , se muestran las siguientes propiedades en el cuadro de diálogo emergente Configuración de formato de archivo .
- Tipo de compresión : elija el códec de compresión utilizado para leer los archivos ORC en la lista desplegable. Puede elegir entre Ninguno, zlib o snappy.
Formato ORC como destino
Después de seleccionar Configuración, se muestran las siguientes propiedades en el cuadro de diálogo emergente Configuración de formato de archivo .
- Tipo de compresión : elija el códec de compresión utilizado para escribir los archivos ORC en la lista desplegable. Puede elegir entre Ninguno, zlib o snappy.
En la configuración Avanzada de la pestaña Destino, se muestran las siguientes propiedades relacionadas con el formato ORC.
- Máximo de filas por archivo: al escribir datos en una carpeta, puede elegir escribir en varios archivos y especificar el máximo de filas por archivo. Especifique las filas máximas que desea escribir por archivo.
-
Prefijo de nombre de archivo: aplicable cuando se configura Número máximo de filas por archivo. Especifique el prefijo de nombre de archivo al escribir datos en varios archivos, lo que da como resultado este patrón:
<fileNamePrefix>_00000.<fileExtension>. Si no se especifica, el prefijo de nombre de archivo se genera automáticamente. Esta propiedad no se aplica cuando el origen es un almacén basado en archivos o una opción de partición habilitada para el almacén de datos.
Propiedades de la actividad de copia ORC
ORC como origen
Las siguientes propiedades se admiten en la sección Origen de la actividad de copia cuando se utiliza el formato ORC.
| Nombre | Descripción | Valor | Obligatorio | Propiedad de script JSON |
|---|---|---|---|---|
| Formato de archivo | El formato de archivo que quiere usar. | ORC | Sí | tipo (en datasetSettings):Orc |
| Tipo de compresión | El códec de compresión usado para leer archivos ORC. |
Ninguna zlib rápido |
No | orcCompressionCodec: Ninguno zlib ágil |
ORC como destino
Las siguientes propiedades se admiten en la sección Destino de la actividad de copia cuando se utiliza el formato ORC.
| Nombre | Descripción | Valor | Obligatorio | Propiedad de script JSON |
|---|---|---|---|---|
| Formato de archivo | El formato de archivo que quiere usar. | ORC | Sí | tipo (en datasetSettings):Orc |
| Tipo de compresión | El códec de compresión usado para leer y escribir archivos ORC. |
Ninguna zlib rápido |
No | orcCompressionCodec: Ninguno zlib ágil |
| Número máximo de filas por archivo | Al escribir datos en una carpeta, puede optar por escribir en varios archivos y especificar el número máximo de filas por archivo. Especifique las filas máximas que desea escribir por archivo. | <sus filas máximas por archivo> | No | maxRowsPerFile |
| Prefijo de nombre de archivo | Se aplica cuando Número máximo de filas por archivo está configurado. Especifique el prefijo de nombre de archivo al escribir datos en varios archivos, lo que da como resultado este patrón: <fileNamePrefix>_00000.<fileExtension>. Si no se especifica, el prefijo de nombre de archivo se genera automáticamente. Esta propiedad no se aplica cuando el origen es un almacén basado en archivos o una opción de partición habilitada para el almacén de datos. |
< el prefijo del nombre de archivo > | No | fileNamePrefix |