Conceitos de ingestão de analisador CSV

Um arquivo CSV (valores separados por vírgula) é um arquivo de texto delimitado por vírgula que é usado para salvar dados em um formato estruturado por tabela.

Um DAG Parser CSV permite que um cliente carregue dados na instância do Microsoft Azure Data Manager for Energy com base em um esquema personalizado, ou seja, um esquema que não corresponde ao Esquema Bem Conhecido da OSDU® (WKS). Os clientes devem criar e registrar o esquema personalizado usando o serviço esquema antes de carregar os dados.

Uma DAG do Analisador CSV implementa uma abordagem ELT (Extração, Carga e Transformação) para o carregamento de dados, ou seja, os dados são extraídos primeiro do sistema de origem no formato CSV e são carregados na instância do "Azure Data Manager for Energy". Em seguida, ele pode ser transformado no esquema conhecido da OSDU® usando um serviço de mapeamento.

O que a ingestão de CSV faz?

Um DAG do Analisador CSV permite que os clientes carreguem os dados CSV na instância do Microsoft Azure Data Manager for Energy. Ele analisa cada linha de um arquivo CSV e cria um registro de metadados de armazenamento. Ele executa schema validation para garantir que os dados CSV estejam em conformidade com o esquema personalizado registrado. Ele executa automaticamente type coercion nas colunas com base na definição de tipo de dados do esquema. Ele gera unique id para cada linha do registro CSV ao combinar a origem, o tipo de entidade e uma string codificada em Base64 formada pela concatenação de chaves naturais nos dados. Ele realiza unit conversion ao converter informações declaradas do quadro de referência em referência persistente apropriada usando o serviço de Unidade. Ele realiza CRS conversion para colunas com reconhecimento espacial com base nas informações do Quadro de Referência (FoR) presentes no esquema. Ele cria relationships metadados conforme declarado no esquema de origem. Por fim, ele persists o registro de metadados usando o serviço de Armazenamento.

Componentes de ingestão do analisador CSV

O fluxo de trabalho do DAG do Analisador CSV é composto pelos seguintes serviços:

  • O serviço de arquivo facilita o gerenciamento de arquivos na instância do Azure Data Manager for Energy. Ele permite ao usuário carregar, descobrir e baixar arquivos com segurança da plataforma de dados.
  • O serviço de esquema facilita o gerenciamento de esquemas na instância do Azure Data Manager for Energy. Ele permite que o usuário crie, busque e pesquise esquemas na plataforma de dados.
  • O Serviço de Armazenamento facilita o armazenamento de informações de metadados para entidades de domínio ingeridas na plataforma de dados. Ele também gera eventos de alteração de registro de armazenamento que permitem que os serviços downstream executem operações em registros de metadados ingeridos.
  • O Serviço de Unidade facilita o gerenciamento e a conversão de unidades
  • O serviço de fluxo de trabalho facilita o gerenciamento de fluxos de trabalho na instância do Azure Data Manager for Energy. É um serviço de wrapper sobre o mecanismo de orquestração do Airflow.

Diagrama de componentes de ingestão de CSV

Captura de tela do diagrama de componentes de ingestão CSV.

Fluxo de trabalho de ingestão do analisador CSV

Para executar o fluxo de trabalho do DAG do Analisador CSV, o usuário deve ter um token de autorização válido e acesso apropriado aos seguintes serviços: Pesquisa, Armazenamento, Esquema, Serviço de Arquivo, Direito, Legal e Fluxo de Trabalho.

O diagrama de fluxo de trabalho abaixo ilustra o fluxo de trabalho do DAG do Analisador CSV: captura de tela do diagrama de sequência de ingestão CSV.

Para executar o fluxo de trabalho do DAG do Analisador CSV, o usuário deve primeiro criar e registrar o esquema usando o serviço de fluxo de trabalho. Depois que o esquema é criado, o usuário usa o serviço Arquivo para carregar o arquivo CSV nas instâncias do Microsoft Azure Data Manager for Energy e também cria o registro de armazenamento do tipo genérico de arquivo. Em seguida, o serviço de arquivos fornece um ID de arquivo para o usuário, que é usado para iniciar o fluxo de trabalho do Analisador CSV usando o serviço de fluxo de trabalho. O serviço fluxo de trabalho fornece uma ID de execução, que o usuário pode usar para acompanhar o status da execução do fluxo de trabalho do Analisador CSV.

OSDU® é uma marca registrada do The Open Group.

Próximas Etapas 

Avance para o tutorial do analisador CSV e saiba como executar uma ingestão do analisador CSV