Raccolta di dati da modelli in produzione

APPLICABILE A:Estensione interfaccia della riga di comando di Azure ml v2 (attuale)Python SDK azure-ai-ml v2 (attuale)

In questo articolo vengono fornite informazioni sulla raccolta di dati dai modelli distribuiti in Azure Machine Learning endpoint online.

Azure Machine Learning Data Collector fornisce la registrazione in tempo reale dei dati di input e output dei modelli distribuiti in endpoint online gestiti o endpoint online Kubernetes. Azure Machine Learning archivia i dati di inferenza registrati in Azure archivio BLOB. Questi dati possono quindi essere usati senza problemi per il monitoraggio del modello, il debug o il controllo, in modo da garantire l'osservabilità delle prestazioni dei modelli distribuiti.

L'agente di raccolta dati fornisce:

  • Registrazione dei dati di inferenza in una posizione centrale (Archiviazione BLOB di Azure)
  • Supporto per gli endpoint online gestiti e gli endpoint online Kubernetes
  • Definizione a livello di distribuzione, consentendo il numero massimo di modifiche alla configurazione
  • Supporto sia per il payload che per la registrazione personalizzata

Modalità di registrazione

L'agente di raccolta dati offre due modalità di registrazione: registrazione del payload e registrazione personalizzata. La registrazione del payload consente di raccogliere dai modelli distribuiti i dati del payload della richiesta e della risposta HTTP. Con la registrazione personalizzata, Azure Machine Learning offre un SDK di Python per la registrazione di dataframe pandas direttamente dallo script di assegnazione dei punteggi. Usando la registrazione personalizzata Python SDK, è possibile registrare i dati di input e output del modello, oltre ai dati prima, durante e dopo qualsiasi trasformazione dei dati (o pre-elaborazione).

Configurazione dell'agente di raccolta dati

L'agente di raccolta dati può essere configurato a livello di distribuzione e la configurazione viene specificata in fase di distribuzione. È possibile configurare la destinazione di archiviazione BLOB Azure che riceverà i dati raccolti. È anche possibile configurare la frequenza di campionamento (compresa tra 0 e 100%) dei dati da raccogliere.

Limiti

L'agente di raccolta dati presenta le limitazioni seguenti:

  • Il collettore di dati supporta solo la registrazione di endpoint Azure Machine Learning online (o in tempo reale), gestiti o su Kubernetes.
  • L'agente di raccolta dati Python SDK supporta solo la registrazione di dati tabulari tramite dataframe pandas.

Domande frequenti

Raccolta di dati di inferenza dopo la distribuzione

Perché i log delle richieste e delle risposte sono mancanti o non corrispondenti per le richieste iniziali? La raccolta di dati di inferenza viene inizializzata al primo arrivo del traffico. Durante questo breve periodo di riscaldamento dopo la distribuzione, le richieste iniziali o le risposte possono essere registrate in modo indipendente. Questo comportamento è previsto e temporaneo.

Ciò indica la perdita di dati o un errore? No. Questa operazione è predefinita e non indica un errore se le metriche di raccolta dati non mostrano errori.

Come è possibile evitare questo problema durante la convalida dei dati di telemetria? Inviare alcune richieste di inferenza di riscaldamento o attendere brevemente dopo la distribuzione prima di eseguire test di convalida o smoke test.