Partilhar via


Repositório de Características Databricks

Esta página é uma visão geral dos recursos disponíveis quando você usa o Databricks Feature Store com o Unity Catalog.

O Databricks Feature Store fornece um registro central para recursos usados em seus modelos de IA e ML. As tabelas e modelos de recursos são registrados no Unity Catalog, fornecendo governança integrada, linhagem e compartilhamento e descoberta de recursos entre espaços de trabalho. Com o Databricks, todo o fluxo de trabalho de treinamento do modelo ocorre em uma única plataforma, incluindo:

  • Pipelines de dados que ingerem dados brutos, criam tabelas de características, treinam modelos e executam inferência em lote.
  • Modelo e recurso servindo pontos de extremidade que estão disponíveis com um único clique e que fornecem milissegundos de latência.
  • Monitorização de dados e modelos.

Quando utiliza características do repositório de características para treinar modelos, o modelo rastreia automaticamente a origem das características que foram usadas no treinamento. No momento da inferência, o modelo procura automaticamente os valores mais recentes das características. A loja de funcionalidades também fornece computação de funcionalidades sob demanda para aplicações em tempo real. O repositório de recursos lida com todas as tarefas de computação de recursos. Isso elimina a distorção de treinamento/serviço, garantindo que os cálculos de recursos usados na inferência sejam os mesmos usados durante o treinamento do modelo. Ele também simplifica significativamente o código do lado do cliente, já que todas as pesquisas de recursos e computação são manipuladas pelo repositório de recursos.

Observação

Esta página aborda a engenharia de características e as capacidades de serviço para espaços de trabalho ativados para o Unity Catalog. Se o seu espaço de trabalho não estiver ativado para o Unity Catalog, consulte Armazenamento de Funcionalidades do Espaço de Trabalho (obsoleto).

Descrição geral conceptual

Para uma visão geral de como funciona a Databricks Feature Store e um glossário de termos, consulte a visão geral e o glossário da Feature store.

Engenharia de características

Característica Description
Tabelas de características Crie e trabalhe com tabelas de características.

Descubra e partilhe funcionalidades

Característica Description
Explore os recursos do Catálogo Unity Explore e gerencie tabelas de recursos usando o Catalog Explorer e a interface do usuário de recursos.
Usar tags com tabelas de funcionalidades e funcionalidades no Unity Catalog Use pares chave-valor simples para categorizar e gerir as suas tabelas de funcionalidades e características.

Usar funcionalidades em fluxos de trabalho de treinamento

Característica Description
Modelos de comboios com tabelas de características Use recursos para treinar modelos.
O recurso point-in-time se junta Use uma correção no ponto no tempo para criar um conjunto de dados de treino que reflita os valores das características a partir do tempo em que uma observação de rótulo foi registrada.
Python API Referência da API Python

Providenciar funcionalidades

Característica Description
Lojas de recursos on-line Databricks Fornecer dados de características para aplicações online e modelos de aprendizado de máquina em tempo real. Desenvolvido por Databricks Lakebase.
Serviço de Modelos com pesquisa automática de características Pesquise automaticamente valores das características de uma loja online.
Endpoints de fornecimento de funcionalidades Forneça recursos para modelos e aplicativos fora do Databricks.
Computação de características sob demanda Calcule os valores das características durante a inferência.

Governança e linhagem de funcionalidades

Característica Description
Governança e linhagem de funcionalidades Use o Unity Catalog para controlar o acesso a tabelas de recursos e exibir a linhagem de uma tabela de recursos, modelo ou função.

Tutoriais

Tutorial Description
Exemplos de blocos de notas para começar Notebook básico. Mostra como criar uma tabela de recursos, usá-la para treinar um modelo e executar a pontuação em lote usando a pesquisa automática de recursos. Também mostra a IU de Engenharia de Características para pesquisar características e visualizar linhagem.
Exemplo de notebook de táxi. Mostra o processo de criação de recursos, atualizando-os e usando-os para treinamento de modelo e inferência em lote.
Exemplo: implementar e consultar um ponto de extremidade de disponibilização de funcionalidades Tutorial e notebook de exemplo mostrando como implantar e consultar um endpoint de serviço de funcionalidade.
Exemplo: usar recursos com aplicativos RAG estruturados Tutorial mostrando como usar tabelas online do Databricks e endpoints de serviço de funcionalidades para aplicações de RAG (Recuperação Aumentada de Geração).

Requisitos

  • Seu espaço de trabalho deve estar habilitado para o Catálogo Unity.
  • A engenharia de características no Unity Catalog requer o Databricks Runtime 13.3 LTS ou posterior.

Se o seu espaço de trabalho não cumprir estes requisitos, consulte Workspace Feature Store (obsoleto) para saber como usar o legacy Workspace Feature Store.

Tipos de dados suportados:

A engenharia de recursos no Unity Catalog e no Workspace Feature Store herdado suporta os seguintes tipos de dados PySpark:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryType, DecimalTypee MapType são suportados em todas as versões do Feature Engineering no Unity Catalog e no Workspace Feature Store v0.3.5 ou superior. [2] StructType é suportado no Feature Engineering v0.6.0 ou superior.

Os tipos de dados listados acima suportam tipos de recursos que são comuns em aplicativos de aprendizado de máquina. Por exemplo:

  • Você pode armazenar vetores densos, tensores e incorporações como ArrayType.
  • Você pode armazenar vetores, tensores e incorporações esparsos como MapType.
  • Você pode armazenar texto como StringType.

Quando publicado em lojas online, os recursos ArrayType e MapType são armazenados no formato JSON.

A interface do usuário do Feature Store exibe metadados sobre tipos de dados de recursos:

Exemplo de tipos de dados complexos

Mais informações

Para obter mais informações sobre práticas recomendadas, baixe o Guia abrangente para lojas de recursos.