Configurare Unity AI Gateway nei modelli che servono gli endpoint

Important

Una nuova esperienza di Unity AI Gateway è disponibile nella versione beta. Il nuovo Gateway Unity AI è il piano di controllo aziendale per la gestione degli endpoint LLM e degli agenti di codifica con funzionalità avanzate. Consulta Gateway di intelligenza artificiale Unity per agenti e LLMs.

Questo articolo illustra come configurare Unity AI Gateway in un endpoint di gestione del modello.

Requirements

Un'area di lavoro di Databricks in un'area in cui è supportata la gestione del modello. Vedere Disponibilità delle funzionalità di gestione dei modelli.
Endpoint di gestione di un modello. È possibile usare uno degli endpoint con pagamento in base al token preconfigurati nell'area di lavoro oppure eseguire le operazioni seguenti:
- Per creare un endpoint per i modelli esterni, completare i passaggi 1 e 2 di Creare un endpoint di gestione di un modello esterno.
- Per creare un endpoint per il throughput fornito, vedere API del modello di base per il throughput fornito.
- Per creare un endpoint per un modello personalizzato, vedere Creare un endpoint.

Configurare Unity AI Gateway usando l'interfaccia utente

Nella sezione Unity AI Gateway della pagina di creazione dell'endpoint, è possibile configurare singolarmente le funzionalità del Gateway. Consultare Funzionalità supportate per le funzionalità disponibili sugli endpoint di erogazione dei modelli esterni e sugli endpoint con velocità effettiva provisionata.

Configurare le funzionalità del gateway di intelligenza artificiale

La tabella seguente riepiloga come configurare Unity AI Gateway durante la creazione dell'endpoint usando l'interfaccia utente di gestione. Se si preferisce eseguire questa operazione a livello di codice, vedere l'esempio notebook.

Feature	Come abilitare	Details
Rilevamento dell'utilizzo	Selezionare Abilita rilevamento utilizzo per abilitare il rilevamento e il monitoraggio delle metriche di utilizzo dei dati.	È necessario che Unity Catalog sia abilitato. Le tabelle di sistema seguenti verranno condivise automaticamente: `system.serving.endpoint_usage`, che acquisisce i conteggi dei token per ogni richiesta all'endpoint. `system.serving.served_entities`, che archivia i metadati per ogni modello di base. Vedere Schemi della tabella di rilevamento dell'utilizzo Solo gli amministratori dell'account dispongono dell'autorizzazione per visualizzare o eseguire query sulla tabella `served_entities` o sulla tabella `endpoint_usage`, nonostante l'utente che gestisce l'endpoint debba attivare il monitoraggio dell'uso. Vedere Concedere l'accesso alle tabelle di sistema. Il numero di token di input e di output viene stimato come (`text_length`+1)/4 se il numero di token non viene restituito dal modello.
Registrazione del payload	Selezionare Abilita tabelle di inferenza per registrare automaticamente le richieste e le risposte dall'endpoint nelle tabelle Delta gestite da Unity Catalog.	È necessario abilitare Unity Catalog e avere l'accesso `CREATE TABLE` nello schema del catalogo specificato. Le tabelle di inferenza abilitate da Unity AI Gateway hanno uno schema diverso rispetto alle tabelle di inferenza legacy supportate solo sugli endpoint che gestiscono modelli personalizzati. Vedi schema della tabella di inferenza abilitata per il Gateway AI di Unity. I dati di registrazione del payload popolano queste tabelle meno di un'ora dopo l'esecuzione di query sull'endpoint. Vedere Limitazioni per le aspettative di latenza per i modelli personalizzati che servono gli endpoint. I payload maggiori di 1 MiB non vengono registrati. Il payload della risposta aggrega la risposta di tutti i blocchi restituiti. Lo streaming è supportato. Negli scenari di streaming, il payload della risposta aggrega la risposta dei blocchi restituiti. Le tabelle di inferenza per i modelli ottimizzati per l'instradamento che forniscono gli endpoint sono disponibili in anteprima pubblica.
Guardrail di intelligenza artificiale	Vedere Configurare guardrail di intelligenza artificiale nell'interfaccia utente.	Le protezioni impediscono al modello di interagire con contenuto non sicuro e dannoso rilevato negli input e negli output del modello. Le protezioni di output non sono supportate per gli incorporamenti di modelli o per lo streaming.
Limitazioni di velocità	Selezionare Limiti di frequenza per gestire e specificare il numero di query al minuto (QPM) o token al minuto (TPM) che l'endpoint può supportare. I limiti di frequenza si applicano solo agli utenti che dispongono dell'autorizzazione per eseguire query sull'endpoint. È possibile definire limiti di frequenza basati su query e basati su token a livelli diversi: Usare il campo Endpoint per specificare il numero massimo di QPM o TPM che l'intero endpoint può gestire. Questo limite si applica a tutto il traffico, indipendentemente dall'utente. Usare il campo Utente (impostazione predefinita) per impostare un limite di frequenza predefinito per utente che si applica a tutti gli utenti dell'endpoint, a meno che non sia definito un limite di frequenza personalizzato più specifico. È possibile specificare limiti di frequenza personalizzati per: Singoli utenti o entità servizio. Questi prendono la priorità rispetto ai limiti di frequenza personalizzati del gruppo di utenti. Gruppi di utenti. Questo limite è un limite di frequenza condivisa per tutti i membri del gruppo.	I limiti di frequenza TPM non possono essere applicati agli endpoint che servono modelli o agenti personalizzati. Per impostazione predefinita, non sono previsti limiti di frequenza configurati per gli utenti o l'endpoint. È possibile specificare un massimo di 20 limiti di frequenza e fino a 5 limiti di frequenza specifici del gruppo in un endpoint. Il limite di frequenza degli endpoint è un valore massimo globale. Se questo limite viene superato, tutte le richieste all'endpoint vengono bloccate, indipendentemente dai limiti di frequenza specifici dell'utente o del gruppo. Se un endpoint, un utente o un'entità servizio hanno sia un limite di frequenza basato su query che un limite di frequenza basato su token specificato, viene applicato il limite di frequenza più restrittivo. I limiti di frequenza personalizzati sostituiscono il limite di velocità utente (predefinito). Se un utente appartiene sia a un limite specifico dell'utente che a un limite specifico del gruppo, viene applicato il limite specifico dell'utente. Se un utente appartiene a più gruppi di utenti con limiti di frequenza TPM o QPM diversi, l'utente è limitato se supera tutti i limiti di frequenza QPM o tutti i limiti di frequenza TPM dei gruppi di utenti.
Suddivisione del traffico	Nella sezione Entità servite specificare la percentuale di traffico che si vuole instradare a modelli specifici. Per configurare la suddivisione del traffico nell'endpoint a livello di codice, vedere Gestire più modelli esterni a un endpoint.	Per instradare tutto il traffico verso un modello specifico, configuratelo impostando a 100%. Se si vuole specificare un modello di solo fallback, aggiungere tale modello all'endpoint e impostarne la percentuale di traffico su 0%. Per bilanciare il carico del traffico tra modelli e configurare i fallback, è possibile prevedere il comportamento seguente: Le richieste vengono suddivise in modo casuale tra le entità in base alle percentuali di traffico assegnate. Se la richiesta raggiunge la prima entità e non riesce, viene eseguito il fallback all'entità successiva nell'ordine in cui le entità servite sono state elencate durante la creazione dell'endpoint o l'aggiornamento dell'endpoint più recente. La suddivisione del traffico non influisce sull'ordine dei tentativi di fallback.
Fallbacks	Selezionare Abilita fallback nella sezione Gateway di intelligenza artificiale per inviare la richiesta ad altri modelli serviti nell'endpoint come fallback.	Se la richiesta iniziale indirizzata a una determinata entità restituisce un errore `429` o `5XX`, la richiesta esegue il fallback all'entità successiva elencata nell'endpoint. L'ordine in cui le richieste vengono reindirizzate alle entità gestite di fallback è basato sull'ordine in cui i modelli vengono elencati durante la creazione dell'endpoint o l'aggiornamento dell'endpoint più recente. La percentuale di traffico non influisce sull'ordine dei tentativi di fallback inviati alle entità gestite. I fallback sono supportati solo per modelli esterni . È necessario assegnare percentuali di traffico ad altri modelli serviti nell'endpoint prima di abilitare i fallback a modelli esterni. Qualsiasi modello esterno con traffico 0% funziona esclusivamente come modello di riserva. È possibile avere un massimo di due fallback. Ogni entità viene processata una volta in ordine sequenziale fino a quando la richiesta ha successo. Se tutte le entità elencate sono state tentate senza esito positivo, la richiesta ha esito negativo. Il primo tentativo riuscito o l'ultimo non riuscito della richiesta e la risposta vengono registrati sia nelle tabelle di monitoraggio dell'utilizzo che nella registrazione del payload.

Il diagramma seguente mostra un esempio di fallback in cui,

Tre entità servite vengono gestite in un endpoint di gestione del modello.
La richiesta viene originariamente instradata all'entità Serve 3.
Se la richiesta restituisce una risposta 200, la richiesta ha avuto esito positivo in entità servita 3 e la richiesta e la relativa risposta vengono registrate nelle tabelle di registrazione dell'utilizzo e del payload dell'endpoint.
Se la richiesta restituisce un errore 429 o 5xx su Entità Servita 3, la richiesta passa all'entità servita successiva nell'endpoint, Entità Servita 1.
- Se la richiesta restituisce un errore 429 o 5xx su entità servita 1, la richiesta passa all'entità servita successiva nell'endpoint, entità servita 2.
- Se la richiesta restituisce un errore 429 o 5xx nell'entità Servita 2, la richiesta ha esito negativo perché si tratta del numero massimo di entità di fallback. La richiesta non riuscita e l'errore di risposta vengono registrati nelle tabelle di rilevamento dell'utilizzo e registrazione del payload.

Esempio di diagramma di fallback

Configurare i guardrail dell'IA nell'interfaccia utente

Important

Questa funzionalità è in Anteprima Pubblica.

Nella tabella seguente viene illustrato come configurare le protezioni supportate .

Guardrail	Come abilitare
Safety	Selezionare Sicurezza per abilitare le misure di sicurezza per impedire al modello di interagire con contenuto non sicuro e dannoso.
Rilevamento delle informazioni personali identificabili	Selezionare Blocca o maschera i dati personali, ad esempio nomi, indirizzi, numeri di carta di credito se tali informazioni vengono rilevate nelle richieste e nelle risposte degli endpoint. In caso contrario, selezionare Nessuno per nessun rilevamento delle informazioni personali.

Configurare le funzionalità di AI Guardrail

schemi della tabella di rilevamento dell'utilizzo

Nelle sezioni seguenti vengono riepilogati gli schemi della tabella di rilevamento dell'utilizzo per le tabelle di sistema system.serving.served_entities e system.serving.endpoint_usage.

schema della tabella di rilevamento dell'utilizzo `system.serving.served_entities`

La tabella del sistema di rilevamento dell'utilizzo system.serving.served_entities presenta lo schema seguente:

Nome colonna	Description	Type
`served_entity_id`	Identificativo univoco dell'entità servita.	STRING
`account_id`	L'ID cliente per Delta Sharing.	STRING
`workspace_id`	ID dell'area di lavoro del cliente dell'endpoint di servizio.	STRING
`created_by`	Nome dell'autore. Può essere un utente, un principale del servizio o un nome di gruppo. Per gli endpoint con pagamento in base al token, si tratta di `System-User`	STRING
`endpoint_name`	Nome dell'endpoint di servizio.	STRING
`endpoint_id`	ID univoco dell'endpoint di servizio.	STRING
`served_entity_name`	Nome dell’entità servita.	STRING
`entity_type`	Tipo dell'entità servita. Può essere `FEATURE_SPEC`, `EXTERNAL_MODEL`, `FOUNDATION_MODEL` o `CUSTOM_MODEL`	STRING
`entity_name`	Nome sottostante dell'entità. Diverso da quello `served_entity_name` che è un nome specificato dall'utente. Ad esempio, `entity_name` è il nome del modello del catalogo Unity.	STRING
`entity_version`	Versione dell'entità servita.	STRING
`endpoint_config_version`	Versione della configurazione dell'endpoint.	INT
`task`	Tipo di attività. Può essere `llm/v1/chat`, `llm/v1/completions` o `llm/v1/embeddings`.	STRING
`external_model_config`	Configurazioni per i modelli esterni. Ad esempio, `{Provider: OpenAI}`	STRUCT
`foundation_model_config`	Configurazioni per i modelli di base. Ad esempio, `{min_provisioned_throughput: 2200, max_provisioned_throughput: 4400}`	STRUCT
`custom_model_config`	Configurazioni per i modelli personalizzati. Ad esempio, `{ min_concurrency: 0, max_concurrency: 4, compute_type: CPU }`	STRUCT
`feature_spec_config`	Configurazioni per le specifiche delle funzionalità. Ad esempio, `{ min_concurrency: 0, max_concurrency: 4, compute_type: CPU }`	STRUCT
`change_time`	Data e ora della modifica per l'entità servita.	TIMESTAMP
`endpoint_delete_time`	Data e ora dell'eliminazione dell'entità. L'endpoint è il contenitore dell'entità servita. Dopo l'eliminazione dell'endpoint, viene eliminata anche l'entità servita.	TIMESTAMP

schema della tabella di rilevamento dell'utilizzo `system.serving.endpoint_usage`

La tabella del sistema di rilevamento dell'utilizzo system.serving.endpoint_usage presenta lo schema seguente:

Nome colonna	Description	Type
`account_id`	L'ID del cliente.	STRING
`workspace_id`	ID dell'area di lavoro del cliente dell'endpoint di servizio.	STRING
`client_request_id`	Identificatore di richiesta fornito dall'utente che può essere specificato nel corpo della richiesta di gestione del modello. Per gli endpoint del modello personalizzati, questo non è supportato per le richieste superiori a 4MiB.	STRING
`databricks_request_id`	Un identificatore di richiesta generato da Azure Databricks collegato a tutte le richieste di servizio del modello.	STRING
`requester`	ID dell'utente o dell'entità servizio le cui autorizzazioni vengono usate per la richiesta di chiamata dell'endpoint di servizio.	STRING
`status_code`	Codice di stato HTTP restituito dal modello.	INTEGER
`request_time`	La data e l'ora in cui è stata ricevuta la richiesta.	TIMESTAMP
`input_token_count`	Il numero dei token nell'input. Questo valore sarà 0 per le richieste di modello personalizzate.	LONG
`output_token_count`	Il conteggio dei token nell'output. Questo valore sarà 0 per le richieste di modello personalizzate.	LONG
`input_character_count`	Numero di caratteri della stringa di input o della richiesta. Questo valore sarà 0 per le richieste di modello personalizzate.	LONG
`output_character_count`	Numero di caratteri della stringa di output della risposta. Questo valore sarà 0 per le richieste di modello personalizzate.	LONG
`usage_context`	Mappa fornita dall'utente contenente gli identificatori dell'utente finale o dell'applicazione del cliente che effettua la chiamata all'endpoint. Vedere Definire ulteriormente l'utilizzo con `usage_context`. Per gli endpoint del modello personalizzati, questo non è supportato per le richieste superiori a 4MiB.	MAP
`request_streaming`	Indica se la richiesta è in modalità streaming.	BOOLEAN
`served_entity_id`	ID univoco utilizzato per effettuare un join con la tabella di dimensioni `system.serving.served_entities` per cercare informazioni sull'endpoint e sull'entità servita.	STRING

Definire ulteriormente l'utilizzo con `usage_context`

Quando si esegue una query su un modello esterno con il rilevamento dell'utilizzo abilitato, è possibile fornire il usage_context parametro con il tipo Map[String, String]. Il mapping del contesto di utilizzo viene visualizzato nella tabella di rilevamento dell'utilizzo nella colonna usage_context. Le dimensioni della usage_context mappa non possono superare 10 KiB.

{
  "messages": [
    {
      "role": "user",
      "content": "What is Databricks?"
    }
  ],
  "max_tokens": 128,
  "usage_context":
    {
      "use_case": "external",
      "project": "project1",
      "priority": "high",
      "end_user_to_charge": "abcde12345",
      "a_b_test_group": "group_a"
    }
}

Se si usa il client Python OpenAI, è possibile specificare il usage_context includendolo nel parametro extra_body.

from openai import OpenAI

client = OpenAI(
    api_key="dapi-your-databricks-token",
    base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

response = client.chat.completions.create(
    model="databricks-claude-sonnet-4-5",
    messages=[{"role": "user", "content": "What is Databricks?"}],
    temperature=0,
    extra_body={"usage_context": {"project": "project1"}},
)
answer = response.choices[0].message.content
print("Answer:", answer)

Gli amministratori dell'account possono aggregare righe diverse in base al contesto di utilizzo per ottenere informazioni dettagliate e aggiungere queste informazioni alle informazioni nella tabella di registrazione del payload. Ad esempio, è possibile aggiungere end_user_to_charge a usage_context per tenere traccia dell'attribuzione dei costi per gli utenti finali.

Monitorare l'utilizzo degli endpoint

Per monitorare l'utilizzo degli endpoint, è possibile unire le tabelle di sistema e le tabelle di inferenza per l'endpoint.

Unire tabelle di sistema

Questo esempio si applica agli endpoint esterni, con throughput di provisioning, a pagamento per token e ai modelli personalizzati.

Per unire le endpoint_usage tabelle di sistema e served_entities , usare il codice SQL seguente:

SELECT * FROM system.serving.endpoint_usage as eu
JOIN system.serving.served_entities as se
ON eu.served_entity_id = se.served_entity_id
WHERE created_by = "\<user_email\>";

Aggiornare le funzionalità del gateway di Intelligenza Artificiale Unity sugli endpoint

È possibile aggiornare le funzionalità del gateway di intelligenza artificiale Unity sugli endpoint di servizio modello che in precedenza avevano funzionalità abilitate e su quelli che non le avevano. Gli aggiornamenti alle configurazioni del gateway di intelligenza artificiale unity richiedono circa 20-40 secondi, tuttavia la limitazione della frequenza degli aggiornamenti può richiedere fino a 60 secondi.

Di seguito viene illustrato come aggiornare le funzionalità di Unity AI Gateway in un modello che serve un endpoint utilizzando la Serving UI.

Nella sezione Gateway della pagina endpoint è possibile visualizzare le funzionalità abilitate. Per aggiornare queste funzionalità, fare clic su Modifica Gateway di Intelligenza Artificiale Unity.

Aggiornare le funzionalità del gateway di intelligenza artificiale

Esempio di notebook

Il notebook seguente illustra come abilitare e usare programmaticamente le funzionalità di Databricks Unity AI Gateway per gestire e governare i modelli dai provider. Per informazioni dettagliate sull'API REST, vedere PUT /api/2.0/serving-endpoints/{name}/ai-gateway .

Abilitare Databricks

Ottieni il notebook

Risorse aggiuntive

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-25

Configurare Unity AI Gateway nei modelli che servono gli endpoint

Requirements

Configurare Unity AI Gateway usando l'interfaccia utente

Configurare i guardrail dell'IA nell'interfaccia utente

schemi della tabella di rilevamento dell'utilizzo

schema della tabella di rilevamento dell'utilizzo system.serving.served_entities

schema della tabella di rilevamento dell'utilizzo system.serving.endpoint_usage

Definire ulteriormente l'utilizzo con usage_context

Monitorare l'utilizzo degli endpoint

Unire tabelle di sistema

Aggiornare le funzionalità del gateway di Intelligenza Artificiale Unity sugli endpoint

Esempio di notebook

Abilitare Databricks

Risorse aggiuntive

Commenti e suggerimenti

Risorse aggiuntive

schema della tabella di rilevamento dell'utilizzo `system.serving.served_entities`

schema della tabella di rilevamento dell'utilizzo `system.serving.endpoint_usage`

Definire ulteriormente l'utilizzo con `usage_context`