Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se describe cómo usar la actividad de copia en una canalización para copiar datos desde y hacia Google Cloud Storage.
Prerrequisitos
La siguiente configuración es necesaria en la cuenta de Google Cloud Storage:
Habilite la interoperabilidad para su cuenta de Google Cloud Storage.
Establezca el proyecto predeterminado que contiene los datos que desea copiar del cubo de Google Cloud Storage de destino.
Cree una cuenta de servicio y defina los niveles adecuados de permisos mediante IAM en la nube en GCP.
Genere las claves de acceso para esta cuenta de servicio.
Permisos necesarios
Para copiar datos de Google Cloud Storage, asegúrese de que se le han concedido los siguientes permisos para las operaciones de objeto: storage.objects.get y storage.objects.list.
Además, storage.buckets.list se requiere permiso para operaciones como probar la conexión y explorar desde la raíz.
Para obtener la lista completa de los roles de Google Cloud Storage y los permisos asociados, vaya a Roles de IAM para Cloud Storage en el sitio de Google Cloud.
Formato admitido
Google Cloud Storage admite los siguientes formatos de archivo. Consulte los artículos para conocer la configuración basada en el formato.
- Formato Avro
- Formato binario
- Formato de texto delimitado
- Formato de Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configuración admitida
Para la configuración de cada pestaña en la actividad de copia, vaya a las secciones siguientes respectivamente.
General
En Configuración de pestaña General, vaya a General.
Fuente
Las siguientes propiedades son compatibles con Google Cloud Storage en la pestaña Origen de una actividad de copia.
Las siguientes propiedades son obligatorias:
Conexión: seleccione una conexión de Google Cloud Storage en la lista de conexiones. Si no existe ninguna conexión, cree una nueva conexión de Google Cloud Storage seleccionando Nuevo.
Tipo de ruta de archivo: puede elegir Ruta de archivo, Prefijo, Ruta de archivo comodín o Lista de archivos como tipo de ruta de archivo. La configuración de cada una de estas opciones es:
Ruta de acceso de archivo: si elige este tipo, los datos se pueden copiar del cubo o la ruta de acceso de carpeta o archivo especificada en Ruta de acceso de archivo.
Prefijo: si elige este tipo, especifique el bucket y el prefijo.
Cubo: especifique el nombre del cubo de Google Cloud Storage. Es necesario.
Prefijo: prefijo para el nombre de clave de Google Cloud Storage en el cubo especificado para filtrar los archivos de Google Cloud Storage de origen. Claves de Google Cloud Storage cuyos nombres comienzan por
given_bucket/this_prefixestán seleccionados. Utiliza el filtro del lado del servidor de Google Cloud Storage, que proporciona un mejor rendimiento que un filtro con caracteres comodín.
Ruta de acceso del archivo comodín: si elige este tipo, especifique las rutas de acceso Bucket y Wildcard.
Cubo: especifique el nombre del cubo de Google Cloud Storage. Es necesario.
Rutas de caracteres comodín: Especifique la ruta de acceso de carpeta o archivo con caracteres comodín en el bucket especificado para filtrar sus carpetas o archivos de origen.
Los caracteres comodín permitidos son:
*(coincide con cero o más caracteres) y?(coincide con cero o carácter único). Use^para escapar si el nombre de la carpeta tiene caracteres comodín o este carácter de escape dentro. Para obtener más ejemplos, vaya a Ejemplos de filtros de carpetas y archivos.
Ruta de acceso de carpeta comodín: especifique la ruta de acceso de carpeta con caracteres comodín bajo el cubo especificado para filtrar las carpetas de origen.
Nombre de archivo comodín: especifique el nombre de archivo con caracteres comodín bajo la ruta de acceso del cubo y la carpeta especificadas (o ruta de acceso de carpeta comodín) para filtrar los archivos de origen.
Lista de archivos: si elige este tipo, especifique la ruta de acceso de carpeta y la ruta de acceso a la lista de archivos para indicar que se copia un conjunto de archivos determinado. Indique un archivo de texto que incluya una lista de archivos que desea copiar, un archivo por línea, cuya ruta de acceso es relativa a la ruta configurada. Para obtener más ejemplos, vaya a Ejemplos de lista de archivos.
- Ruta de acceso de carpeta: especifique la ruta de acceso a la carpeta en el cubo especificado. Es necesario.
- Ruta de acceso a la lista de archivos: especifique la ruta de acceso del archivo de texto que incluye una lista de archivos que desea copiar.
Recursivamente: indica si los datos se leen de forma recursiva desde las subcarpetas o solo desde la carpeta especificada. Tenga en cuenta que cuando esta casilla está activada y el destino es un almacén basado en archivos, una carpeta vacía o una subcarpeta no se copia ni se crea en el destino.
Formato de archivo: seleccione el formato de archivo aplicado en la lista desplegable. Seleccione Configuración para configurar el formato de archivo. Para conocer la configuración de diferentes formatos de archivo, consulte los artículos en Formato admitido para obtener información detallada.
En Avanzado, puede especificar los campos siguientes:
Filtrar por última modificación: los archivos se filtran en función de las fechas de última modificación especificadas. Esta propiedad no se aplica al configurar el tipo de ruta de acceso del archivo como Lista de archivos.
- Hora de inicio (UTC): los archivos se seleccionan si su hora de última modificación es mayor o igual que la hora configurada.
- Hora de finalización (UTC): los archivos se seleccionan si su hora de última modificación es menor que la hora configurada.
Cuando la hora de inicio (UTC) tiene un valor datetime pero la hora de finalización (UTC) es NULL, significa que se seleccionarán los archivos cuyo último atributo modificado sea mayor o igual que el valor datetime. Cuando la hora de finalización (UTC) tiene el valor datetime, pero la hora de inicio (UTC) es NULL, significa que se seleccionarán los archivos cuyo último atributo modificado sea menor que el valor datetime. Las propiedades pueden ser NULL, lo que significa que no se aplicará ningún filtro de atributo de archivo a los datos.
Habilitar la detección de particiones: especifique si se van a analizar las particiones de la ruta de acceso del archivo y a agregarlas como columnas de origen adicionales. No se selecciona de forma predeterminada y no se admite cuando se usa el formato de archivo binario.
Ruta de acceso raíz de partición: cuando la detección de particiones está habilitada, especifique la ruta de acceso raíz absoluta para leer las carpetas con particiones como columnas de datos.
Si no se especifica, de forma predeterminada,
- Cuando utilizas una ruta de archivo o una lista de archivos en el origen, la ruta raíz de la partición es la que configuraste.
- Cuando uses el filtro de carpeta comodín, la ruta de acceso raíz de la partición es la subruta antes del primer carácter comodín.
- Cuando se usa el prefijo, la ruta de acceso raíz de la partición es subruta antes de la última "/".
Por ejemplo, suponiendo que configure la ruta de acceso como
root/folder/year=2020/month=08/day=27:- Si especifica la ruta de acceso raíz de partición como
root/folder/year=2020, la actividad de copia generará dos columnas más mes y día con el valor "08" y "27", respectivamente, además de las columnas dentro de los archivos. - Si no se especifica la ruta de acceso de la raíz de partición, no se generará ninguna columna extra.
Conexión simultánea máxima: límite superior de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas.
Columnas adicionales: agregue columnas de datos adicionales para almacenar la ruta de acceso relativa o el valor estático de los archivos de origen. La expresión se admite para este último.
Destino
Las siguientes propiedades son compatibles con Google Cloud Storage en la pestaña Destino de una actividad de copia.
Las siguientes propiedades son obligatorias:
- Conexión: seleccione una conexión de Google Cloud Storage en la lista de conexiones. Si no existe ninguna conexión, cree una nueva conexión de Google Cloud Storage seleccionando Nuevo.
- Ruta de acceso del archivo: los datos se pueden copiar en el bucket dado o en la ruta especificada del bucket y la carpeta.
- Formato de archivo: seleccione el formato de archivo aplicado en la lista desplegable. Seleccione Configuración para configurar el formato de archivo. Para conocer la configuración de diferentes formatos de archivo, consulte los artículos en Formato admitido para obtener información detallada.
En Avanzado, puede especificar los campos siguientes:
Comportamiento de copia: define el comportamiento de copia cuando el origen es archivos de un almacén de datos basado en archivos. Puedes elegir un comportamiento en la lista desplegable.
- Jerarquía plana: todos los archivos de la carpeta de origen están en el primer nivel de la carpeta de destino. Los archivos de destino tienen nombres generados automáticamente.
- Combinar archivos: combina todos los archivos de la carpeta de origen en un archivo. Si se especifica el nombre del archivo, el nombre de archivo combinado es el nombre especificado. De lo contrario, es un nombre de archivo generado automáticamente.
- Conservar jerarquía: conserva la jerarquía de archivos en la carpeta de destino. La ruta de acceso relativa del archivo de origen a la carpeta de origen es idéntica a la ruta de acceso relativa del archivo de destino a la carpeta de destino.
Número máximo de conexiones simultáneas: esta propiedad indica el límite superior de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas.
Cartografía
Para la configuración de la pestaña Asignación , consulte Configuración de las asignaciones en la pestaña Asignación. Si elige Binario como formato de archivo, no se admitirá la asignación.
Configuración
Para la configuración de la pestaña Configuración , vaya a Configuración de otras opciones en la pestaña Configuración.
Resumen de tabla
Las tablas siguientes contienen más información sobre la actividad de copia en Google Cloud Storage.
Información de origen
| Nombre | Description | Importancia | Obligatorio | Propiedad de script JSON |
|---|---|---|---|---|
| Conexión | Tu conexión con el almacén de datos de origen. | <conexión de Google Cloud Storage> | Sí | connection |
| Tipo de ruta de acceso de archivo | Tipo de ruta de acceso de archivo que se usa para obtener datos de origen. | • Ruta de acceso del archivo • Prefijo • Ruta de acceso de archivo comodín • Lista de archivos |
Sí | / |
| Para ruta de acceso de archivo | ||||
| Bucket | Nombre del bucket de Google Cloud Storage. | <el nombre del bucket> | Sí | bucketName |
| Directorio | Ruta de acceso a la carpeta bajo el cubo especificado. | <el nombre de la carpeta> | No | folderpath |
| Nombre de archivo | Nombre de archivo en la ruta de acceso de cubo y carpeta especificadas. | <el nombre del archivo> | No | fileName |
| Para Prefijo | ||||
| Bucket | Nombre del bucket de Google Cloud Storage. | <el nombre del bucket> | Sí | bucketName |
| Prefix | Prefijo del nombre de la clave de Google Cloud Storage en el bucket especificado para filtrar los archivos de origen de Google Cloud Storage. | <prefijo> | No | prefix |
| Para la ruta de acceso del archivo comodín | ||||
| Bucket | Nombre del bucket de Google Cloud Storage. | <el nombre del bucket> | Sí | bucketName |
| Ruta de acceso de carpeta comodín | Ruta de acceso de carpeta con caracteres comodín en el cubo especificado para filtrar las carpetas de origen. | <ruta de acceso de la carpeta con caracteres comodín> | No | wildcardFolderPath |
| Nombre comodín de archivo | Nombre de archivo con caracteres comodín en el bucket y la ruta de carpeta especificados (o ruta de carpeta comodín) para filtrar los archivos de origen. | <su nombre de archivo con caracteres comodín> | Sí | wildcardFileName |
| Para lista de archivos | ||||
| Bucket | Nombre del bucket de Google Cloud Storage. | <el nombre del bucket> | Sí | bucketName |
| Directorio | Ruta de acceso a la carpeta bajo el cubo especificado. | <el nombre de la carpeta> | No | folderpath |
| Ruta de acceso a la lista de archivos | Indica que se copie un conjunto de archivos determinado. Apunte a un archivo de texto que incluya una lista de archivos que desea copiar, un archivo por línea. | < ruta de lista de archivos > | No | fileListPath |
| Formato de archivo | Formato de archivo para los datos de origen. Para obtener información sobre diferentes formatos de archivo, consulte los artículos en Formato admitido para obtener información detallada. | / | Sí | / |
| Recursivamente | Indica si los datos se leen de forma recursiva de las subcarpetas o solo de la carpeta especificada. Tenga en cuenta que cuando esta casilla está activada y el destino es un almacén basado en archivos, una carpeta vacía o una subcarpeta no se copia ni se crea en el destino. | selección (predeterminado) o anulación | No | recursive |
| Filtrar por última modificación | Los archivos con la hora de última modificación en el intervalo [Hora de inicio, Hora de finalización) se filtrarán para su posterior procesamiento. La hora se aplicará a la zona horaria UTC en el formato de yyyy-mm-ddThh:mm:ss.fffZ. Estas propiedades se pueden omitir, lo que significa que no se aplicará ningún filtro de atributo de archivo. Esta propiedad no se aplica al configurar el tipo de ruta de acceso del archivo como Lista de archivos. |
datetime | No | modifiedDatetimeStart modifiedDatetimeEnd |
| Habilitación de la detección de particiones | Indica si analizar las particiones de la ruta de acceso del archivo y agregarlas como columnas de origen adicionales. | seleccionado o no seleccionado (valor predeterminado) | No | enablePartitionDiscovery: true o false (valor predeterminado) |
| Ruta de acceso raíz de partición | Cuando esté habilitada la detección de particiones, especifique la ruta de acceso raíz absoluta para poder leer las carpetas con particiones como columnas de datos. | < ruta raíz de su partición > | No | partitionRootPath |
| Conexión simultánea máxima | Número máximo de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas. | < número máximo de conexiones simultáneas > | No | maxConcurrentConnections |
| Columnas adicionales | Agregue columnas de datos adicionales para almacenar la ruta de acceso relativa o el valor estático de los archivos de origen. La expresión se admite para este último. | • Nombre • Valor |
No | columnas adicionales: • nombre •valor |
Información de destino
| Nombre | Description | Importancia | Obligatorio | Propiedad de script JSON |
|---|---|---|---|---|
| Conexión | Su conexión al almacén de datos de destino. | <conexión de Google Cloud Storage> | Sí | connection |
| Ruta de acceso del archivo | Ruta de acceso de carpeta o archivo al archivo de destino. | < ruta de acceso de carpeta/archivo> | Sí | / |
| Bucket | Nombre del bucket de Google Cloud Storage. | <el nombre del bucket> | Sí | bucketName |
| Directorio | Ruta de acceso a la carpeta bajo el cubo especificado. | <el nombre de la carpeta> | No | folderpath |
| Nombre de archivo | Nombre de archivo en la ruta de acceso de cubo y carpeta especificadas. | <el nombre del archivo> | No | fileName |
| Comportamiento de copia | Define el comportamiento de copia cuando el origen son archivos de un almacén de datos basados en archivos. | • Aplanar jerarquía • Combinar archivos • Conservar la jerarquía |
No | comportamiento de copia: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
| Número máximo de conexiones simultáneas | Número máximo de conexiones simultáneas establecidas en el almacén de datos durante la ejecución de la actividad. Especifique un valor solo cuando quiera limitar las conexiones simultáneas. | < número máximo de conexiones simultáneas > | No | maxConcurrentConnections |