Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Esta página é uma visão geral dos recursos disponíveis quando você usa o Databricks Feature Store com o Unity Catalog.
O Databricks Feature Store fornece um registro central para recursos usados em seus modelos de IA e ML. As tabelas e modelos de recursos são registrados no Unity Catalog, fornecendo governança integrada, linhagem e compartilhamento e descoberta de recursos entre espaços de trabalho. Com o Databricks, todo o fluxo de trabalho de treinamento do modelo ocorre em uma única plataforma, incluindo:
- Pipelines de dados que ingerem dados brutos, criam tabelas de características, treinam modelos e executam inferência em lote.
- Modelo e recurso servindo pontos de extremidade que estão disponíveis com um único clique e que fornecem milissegundos de latência.
- Monitorização de dados e modelos.
Quando utiliza características do repositório de características para treinar modelos, o modelo rastreia automaticamente a origem das características que foram usadas no treinamento. No momento da inferência, o modelo procura automaticamente os valores mais recentes das características. A loja de funcionalidades também fornece computação de funcionalidades sob demanda para aplicações em tempo real. O repositório de recursos lida com todas as tarefas de computação de recursos. Isso elimina a distorção de treinamento/serviço, garantindo que os cálculos de recursos usados na inferência sejam os mesmos usados durante o treinamento do modelo. Ele também simplifica significativamente o código do lado do cliente, já que todas as pesquisas de recursos e computação são manipuladas pelo repositório de recursos.
Observação
Esta página aborda a engenharia de características e as capacidades de serviço para espaços de trabalho ativados para o Unity Catalog. Se o seu espaço de trabalho não estiver ativado para o Unity Catalog, consulte Armazenamento de Funcionalidades do Espaço de Trabalho (obsoleto).
Descrição geral conceptual
Para uma visão geral de como funciona a Databricks Feature Store e um glossário de termos, consulte a visão geral e o glossário da Feature store.
Engenharia de características
| Característica | Description |
|---|---|
| Tabelas de características | Crie e trabalhe com tabelas de características. |
Descubra e partilhe funcionalidades
| Característica | Description |
|---|---|
| Explore os recursos do Catálogo Unity | Explore e gerencie tabelas de recursos usando o Catalog Explorer e a interface do usuário de recursos. |
| Usar tags com tabelas de funcionalidades e funcionalidades no Unity Catalog | Use pares chave-valor simples para categorizar e gerir as suas tabelas de funcionalidades e características. |
Usar funcionalidades em fluxos de trabalho de treinamento
| Característica | Description |
|---|---|
| Modelos de comboios com tabelas de características | Use recursos para treinar modelos. |
| O recurso point-in-time se junta | Use uma correção no ponto no tempo para criar um conjunto de dados de treino que reflita os valores das características a partir do tempo em que uma observação de rótulo foi registrada. |
| Python API | Referência da API Python |
Providenciar funcionalidades
| Característica | Description |
|---|---|
| Lojas de recursos on-line Databricks | Fornecer dados de características para aplicações online e modelos de aprendizado de máquina em tempo real. Desenvolvido por Databricks Lakebase. |
| Serviço de Modelos com pesquisa automática de características | Pesquise automaticamente valores das características de uma loja online. |
| Endpoints de fornecimento de funcionalidades | Forneça recursos para modelos e aplicativos fora do Databricks. |
| Computação de características sob demanda | Calcule os valores das características durante a inferência. |
Governança e linhagem de funcionalidades
| Característica | Description |
|---|---|
| Governança e linhagem de funcionalidades | Use o Unity Catalog para controlar o acesso a tabelas de recursos e exibir a linhagem de uma tabela de recursos, modelo ou função. |
Tutoriais
| Tutorial | Description |
|---|---|
| Exemplos de blocos de notas para começar |
Notebook básico. Mostra como criar uma tabela de recursos, usá-la para treinar um modelo e executar a pontuação em lote usando a pesquisa automática de recursos. Também mostra a IU de Engenharia de Características para pesquisar características e visualizar linhagem. Exemplo de notebook de táxi. Mostra o processo de criação de recursos, atualizando-os e usando-os para treinamento de modelo e inferência em lote. |
| Exemplo: implementar e consultar um ponto de extremidade de disponibilização de funcionalidades | Tutorial e notebook de exemplo mostrando como implantar e consultar um endpoint de serviço de funcionalidade. |
| Exemplo: usar recursos com aplicativos RAG estruturados | Tutorial mostrando como usar tabelas online do Databricks e endpoints de serviço de funcionalidades para aplicações de RAG (Recuperação Aumentada de Geração). |
Requisitos
- Seu espaço de trabalho deve estar habilitado para o Catálogo Unity.
- A engenharia de características no Unity Catalog requer o Databricks Runtime 13.3 LTS ou posterior.
Se o seu espaço de trabalho não cumprir estes requisitos, consulte Workspace Feature Store (obsoleto) para saber como usar o legacy Workspace Feature Store.
Tipos de dados suportados:
A engenharia de recursos no Unity Catalog e no Workspace Feature Store herdado suporta os seguintes tipos de dados PySpark:
IntegerTypeFloatTypeBooleanTypeStringTypeDoubleTypeLongTypeTimestampTypeDateTypeShortTypeArrayType-
BinaryType[1] -
DecimalType[1] -
MapType[1] -
StructType[2]
[1] BinaryType, DecimalTypee MapType são suportados em todas as versões do Feature Engineering no Unity Catalog e no Workspace Feature Store v0.3.5 ou superior.
[2] StructType é suportado no Feature Engineering v0.6.0 ou superior.
Os tipos de dados listados acima suportam tipos de recursos que são comuns em aplicativos de aprendizado de máquina. Por exemplo:
- Você pode armazenar vetores densos, tensores e incorporações como
ArrayType. - Você pode armazenar vetores, tensores e incorporações esparsos como
MapType. - Você pode armazenar texto como
StringType.
Quando publicado em lojas online, os recursos ArrayType e MapType são armazenados no formato JSON.
A interface do usuário do Feature Store exibe metadados sobre tipos de dados de recursos:
Mais informações
Para obter mais informações sobre práticas recomendadas, baixe o Guia abrangente para lojas de recursos.