Überwachung von Modellbereitstellungen in Microsoft Foundry Models

Wichtig

In diesem Artikel markierte Elemente (Vorschau) befinden sich derzeit in der öffentlichen Vorschau. Diese Vorschau wird ohne Vereinbarung auf Serviceebene bereitgestellt und wird für Produktionsworkloads nicht empfohlen. Bestimmte Features werden möglicherweise nicht unterstützt oder weisen eingeschränkte Funktionen auf. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.

In diesem Artikel wird erläutert, wie Sie Azure Monitor Metriken und Protokolle verwenden, um Verfügbarkeit, Leistung und Verwendung für Modellbereitstellungen in Foundry Models nachzuverfolgen. Azure Monitor erfasst und aggregiert Metriken und Protokolle aus Ihren Foundry Models-Bereitstellungen automatisch, sodass Sie Leistungsdaten in Echtzeit anzeigen und Warnungen für Probleme einrichten können.

Voraussetzungen

Um Überwachungsfunktionen für Modellbereitstellungen in Foundry Models zu verwenden, benötigen Sie Folgendes:

Metriken

Azure Monitor erfasst Metriken automatisch aus Foundry Models. Es ist keine Konfiguration erforderlich. Diese Metriken sind:

  • In der Azure Monitor Datenbank für Zeitreihenmetriken gespeichert.
  • Leicht und in der Lage, nahezu echtzeitbasierte Warnungen zu unterstützen.
  • Wird verwendet, um die Leistung einer Ressource im Laufe der Zeit nachzuverfolgen.

Anzeigen von Metriken

Azure Monitor Metriken können mithilfe mehrerer Tools abgefragt werden, darunter:

Gießereiportal

Sie können Metriken im Foundry-Portal anzeigen. Führen Sie die folgenden Schritte aus, um sie zu sehen:

  1. Wechseln Sie zum Foundry-Portal.

  2. Wählen Sie unter "Meine Objekte " im Randleistenmenü "Modelle + Endpunkte" aus, und wählen Sie dann den Namen der Bereitstellung aus, zu der Metriken angezeigt werden sollen.

  3. Wählen Sie die Registerkarte "Metriken " aus.

  4. Sie können auf eine Übersicht über allgemeine Metriken zugreifen, die möglicherweise von Interesse sind. Wählen Sie für kostenbezogene Metriken den Link Azure Cost Management aus, der Zugriff auf detaillierte Kostenmetriken nach Verbrauch im Abschnitt Cost analysis im Azure-Portal bietet.

    Screenshot der Metriken, die für Modellbereitstellungen im Foundry-Portal angezeigt werden.

    Kostendaten im Azure Portal zeigen die tatsächlichen Nachverbrauchsgebühren für den Modellverbrauch an, einschließlich anderer KI-Ressourcen innerhalb der Gießerei. Eine vollständige Liste der KI-Ressourcen finden Sie unter "Erstellen mit anpassbaren APIs und Modellen". Es gibt ungefähr eine fünfstündige Verzögerung vom Abrechnungsereignis bis zur Anzeige in Azure Portalkostenanalyse.

    Wichtig

    Der Link Azure Cost Management stellt einen direkten Link im Azure Portal bereit, sodass Benutzer auf detaillierte Kostenmetriken für bereitgestellte KI-Modelle zugreifen können. Dieser Deep Link ist in die Azure Kostenanalysedienstansicht integriert und bietet transparente und umsetzbare Einblicke in modellbasierte Kosten.

    Der Deep-Link leitet Benutzer zur Kostenanalyseansicht im Azure-Portal weiter und bietet eine Einklick-Erfahrung zum Anzeigen von Bereitstellungen pro Ressource, einschließlich Eingabe-/Ausgabetokenkosten/Verbrauch. Um Kostendaten anzuzeigen, benötigen Sie mindestens read Zugriff für ein Azure Konto. Informationen zum Zuweisen des Zugriffs auf Kostenverwaltungsdaten finden Sie unter Zuweisen des Zugriffs auf Daten.

  5. Sie können Metriken mit Azure Monitor metrics explorer anzeigen und analysieren, um die Modellbereitstellungsmetriken weiter zu segmentieren und zu filtern.

    Screenshot mit der Option zum Öffnen von Modellbereitstellungsmetriken in Azure Monitor.

Metrik-Explorer

Der Metrik-Explorer ist ein Tool im Azure-Portal, mit dem Sie Metriken für Azure Ressourcen anzeigen und analysieren können. Weitere Informationen finden Sie unter Analyze-Metriken mit Azure Monitor Metrik-Explorer.

Führen Sie die folgenden Schritte aus, um Azure Monitor zu verwenden:

  1. Wechseln Sie zum portal Azure.

  2. Geben Sie im Suchfeld Monitor ein und wählen Sie Monitor aus.

  3. Wählen Sie "Metriken" im Randleistenmenü aus.

  4. Wählen Sie im Bereich "Auswählen" die Ressourcen aus, die Sie überwachen möchten. Sie können entweder eine Ressource auswählen oder eine Ressourcengruppe oder ein Abonnement auswählen. Wenn dies der Fall ist, stellen Sie sicher, dass Sie Ressourcentypen als Foundry Tools auswählen.

  5. Der Metrik-Explorer wird angezeigt. Wählen Sie die Metriken aus, die Sie untersuchen möchten. Das folgende Beispiel zeigt die Anzahl der Anforderungen, die an die Modellbereitstellungen in der Ressource vorgenommen wurden.

    Screenshot, der zeigt, wie dem Diagramm eine neue Metrik hinzugefügt wird.

    Wichtig

    Metriken in der Kategorie Azure OpenAI enthalten Metriken für Azure OpenAI-Modelle in der Ressource. Die Kategorie Models enthält alle in der Ressource verfügbaren Modelle, einschließlich Azure OpenAI, DeepSeek und Phi. Es wird empfohlen, zu diesem neuen Satz von Metriken zu wechseln.

  6. Sie können demselben Diagramm oder einem neuen Diagramm beliebig viele Metriken hinzufügen.

  7. Bei Bedarf können Sie Metriken nach den verfügbaren Dimensionen filtern.

    Screenshot, der zeigt, wie ein Filter auf eine Metrik angewendet wird.

  8. Es ist nützlich, bestimmte Metriken nach einigen Dimensionen aufzuschlüsseln. Das folgende Beispiel zeigt, wie Sie die Anzahl der Anforderungen, die mithilfe der Option "Aufschlüsselung hinzufügen" an die Ressource nach Modell vorgenommen wurden, aufteilen können.

    Screenshot, der zeigt, wie die Metrik durch eine bestimmte Dimension geteilt wird.

  9. Sie können Ihre Dashboards jederzeit speichern, um zu vermeiden, dass Sie sie jedes Mal konfigurieren müssen.

Weitere Tools

Zu den Tools, die eine komplexere Visualisierung ermöglichen, gehören:

  • Workbooks: anpassbare Berichte, die Sie im Azure-Portal erstellen können. Arbeitsmappen können Text-, Metrik- und Protokollabfragen enthalten.
  • Grafana: ein offenes Plattformtool, das in operativen Dashboards excelsiert. Sie können Grafana verwenden, um Dashboards zu erstellen, die Daten aus mehreren anderen Quellen als Azure Monitor enthalten.
  • Power BI: ein Business Analytics-Dienst, der interaktive Visualisierungen in verschiedenen Datenquellen bereitstellt. Sie können Power BI so konfigurieren, dass Protokolldaten automatisch aus Azure Monitor importiert werden, um diese Visualisierungen nutzen zu können.

Referenz für Metriken

Die folgenden Kategorien von Metriken sind verfügbar:

Modelle – Anforderungen

Metrisch Interner Name Einheit Aggregation Dimensionen
Modellverfügbarkeitsrate

Verfügbarkeitsprozentsatz mit der folgenden Berechnung: (Gesamtaufrufe - Serverfehler)/Gesamtaufrufe. Serverfehler schließen alle HTTP-Antworten >=500 ein.
ModelAvailabilityRate Prozent Minimum, Maximum, Mittelwert ApiName, , OperationNameRegion, StreamType, ModelDeploymentName, , ModelNameModelVersion
Modellanforderungen

Anzahl der Aufrufe an die Modellinferenz-API über einen bestimmten Zeitraum.
ModelRequests Anzahl Gesamt (Summe) ApiName, , OperationNameRegion, StreamType, ModelDeploymentName, ModelName, , ModelVersionStatusCode

Modelle – Latenz

Metrisch Interner Name Einheit Aggregation Dimensionen
Zeit für Antwort

Empfohlene Latenz (Reaktionsfähigkeit) für Streaminganforderungen. Gilt für PTU- und PTU-verwaltete Implementierungen. Berechnet als Zeit, die für die erste Antwort erforderlich ist, die angezeigt wird, nachdem ein Benutzer eine Eingabeaufforderung gesendet hat, wie vom API-Gateway gemessen. Diese Zahl nimmt zu, wenn die Größe der Anweisung vergrößert oder die Cache-Hit-Größe reduziert wird. Diese Metrik ist eine Annäherung, da die gemessene Latenz von mehreren Faktoren abhängt, einschließlich gleichzeitiger Anrufe und gesamter Arbeitsauslastungsmuster. Sie berücksichtigt keine clientseitige Latenz zwischen Ihrem Client und dem API-Endpunkt. Verweisen Sie auf Ihr eigenes Logging für eine optimale Latenzverfolgung.
TimeToResponse Millisekunden Maximum, Minimum, Durchschnitt ApiName, , OperationNameRegion, StreamType, ModelDeploymentName, ModelName, , ModelVersionStatusCode
Normalisierte Zeit zwischen Token

Für Streaminganforderungen; Modelltokengenerierungsrate gemessen in Millisekunden. Gilt für PTU- und PTU-verwaltete Implementierungen.
NormalizedTimeBetweenTokens Millisekunden Maximum, Minimum, Durchschnitt ApiName, , OperationNameRegion, StreamType, ModelDeploymentName, , ModelNameModelVersion

Modelle – Verwendung

Metrisch Interner Name Einheit Aggregation Dimensionen
Eingabetoken

Anzahl der in einem Modell verarbeiteten Eingabeaufforderungstoken (Eingabe). Gilt für PTU-, PTU-verwaltete und Standardbereitstellungen.
InputTokens Anzahl Gesamt (Summe) ApiName, , RegionModelDeploymentName, , ModelNameModelVersion
Ausgabetoken

Anzahl der generierten Token (Ausgabe) aus einem Modell. Gilt für PTU-, PTU-verwaltete und Standardbereitstellungen.
OutputTokens Anzahl Gesamt (Summe) ApiName, , RegionModelDeploymentName, , ModelNameModelVersion
Gesamttoken

Anzahl der in einem Modell verarbeiteten Ableitungstoken. Berechnet als Eingabeaufforderungstoken (Eingabe) plus generierten Token (Ausgabe). Gilt für PTU-, PTU-verwaltete und Standardbereitstellungen.
TotalTokens Anzahl Gesamt (Summe) ApiName, , RegionModelDeploymentName, , ModelNameModelVersion
Token-Cache-Übereinstimmungsrate

Prozentsatz der Eingabeaufforderungstoken, die den Cache erreicht haben. Gilt für PTU- und PTU-verwaltete Bereitstellungen.
TokensCacheMatchRate Prozentsatz Durchschnitt Region, ModelDeploymentName, ModelName, ModelVersion
Bereitgestellte Nutzung

Auslastungsprozentsatz für eine bereitgestellte verwaltete Bereitstellung, berechnet als (PTUs verbraucht / PTUs bereitgestellt) x 100. Wenn die Auslastung größer oder gleich 100%ist, werden Aufrufe gedrosselt und Fehlercode 429 zurückgegeben.
ProvisionedUtilization Prozentsatz Durchschnitt Region, ModelDeploymentName, ModelName, ModelVersion
Bereitgestellte und verbrauchte Token

Gesamttoken minus zwischengespeicherte Token über einen bestimmten Zeitraum. Gilt für PTU- und PTU-verwaltete Bereitstellungen.
ProvisionedConsumedTokens Anzahl Gesamt (Summe) Region, ModelDeploymentName, ModelName, ModelVersion
Audioeingabetoken

Anzahl der in einem Modell verarbeiteten Audioaufforderungstoken (Eingabe). Gilt für PTU-verwaltete Modellbereitstellungen.
AudioInputTokens Anzahl Gesamt (Summe) Region, ModelDeploymentName, ModelName, ModelVersion
Audioausgabetoken

Anzahl der generierten Audioaufforderungstoken (Ausgabe) für ein Modell. Gilt für PTU-verwaltete Modellbereitstellungen.
AudioOutputTokens Anzahl Gesamt (Summe) Region, ModelDeploymentName, ModelName, ModelVersion

Protokolle

Ressourcenprotokolle bieten Einblicke in Vorgänge, die von einer Azure Ressource durchgeführt wurden. Protokolle werden automatisch generiert, aber Sie müssen sie zu Azure Monitor Logs weiterleiten, um sie zu speichern oder abzufragen, indem Sie eine Diagnoseeinstellung konfigurieren. Protokolle sind in Kategorien organisiert. Wenn Sie eine Diagnoseeinstellung erstellen, geben Sie an, welche Kategorien von Protokollen erfasst werden sollen.

Die folgenden Protokollkategorien sind für Foundry Models verfügbar:

Kategorie Beschreibung
RequestResponse Protokolle für jede Rückschlussanforderung und -antwort, einschließlich Statuscodes und Latenz.
Protokoll Detaillierte Ablaufverfolgungsprotokolle zum Debuggen von Modellinference-Aufrufen.
Audit Administrative Vorgänge wie Bereitstellungen, Konfigurationsänderungen und Zugriffssteuerungsereignisse.

Weitere Informationen zu allen verfügbaren Protokollkategorien finden Sie unter Azure Monitor Ressourcenprotokollkategorien.

Konfigurieren von Diagnoseeinstellungen

Alle Metriken können mit Diagnoseeinstellungen in Azure Monitor exportiert werden. Um Protokolle und Metrikdaten mit Azure Monitor Log Analytics Abfragen zu analysieren, können Sie Diagnoseeinstellungen für Ihre Ressource "Foundry Tools" konfigurieren. Führen Sie diesen Vorgang für jede Ressource aus.

Screenshot, der zeigt, wie die Diagnoseprotokollierung in einem resource.pngkonfiguriert wird

So konfigurieren Sie Diagnoseeinstellungen für Ihre Foundry-Ressource:

  1. Wechseln Sie zum Azure-Portal und suchen Sie Ihre Foundry-Ressource.

  2. Wählen Sie unter "Überwachung " im Randleistenmenü "Diagnoseeinstellungen" aus.

  3. Wählen Sie "Diagnoseeinstellung hinzufügen" aus.

  4. Geben Sie einen Namen für die Diagnoseeinstellung ein.

  5. Wählen Sie unter "Protokolle" die Protokollkategorien aus, die Sie sammeln möchten (z. B. RequestResponseLogs).

  6. Wählen Sie unter "Metriken" die Option "Alle Metriken" aus, um Metriken zu exportieren.

  7. Wählen Sie unter ZieldetailsAn Log Analytics-Arbeitsbereich senden aus, und wählen Sie einen Arbeitsbereich in Ihrem Abonnement aus.

  8. Wählen Sie "Speichern" aus.

Hinweis

Es gibt kosten für das Sammeln von Daten in einem Log Analytics Arbeitsbereich. Sammeln Sie daher nur die Kategorien, die Sie für jeden Dienst benötigen. Das Datenvolumen für Ressourcenprotokolle variiert erheblich zwischen Diensten.

Abfrageprotokolle mit KQL

Nachdem Sie die Diagnoseeinstellungen konfiguriert haben, um Metriken an Log Analytics zu senden, können Sie Protokolldaten mithilfe der Kusto-Abfragesprache (KQL) abfragen und analysieren.

Führen Sie die folgenden Schritte aus, um Metriken abzufragen:

  1. Wechseln Sie zum portal Azure.

  2. Suchen Sie die Findry-Ressource, die Sie abfragen möchten.

  3. Wählen Sie unter "Überwachung " im Randleistenmenü "Protokolle" aus. Wenn die Abfragefensteroptionen aufgefüllt werden, schließen Sie das Fenster.

  4. Ein neuer Abfrage-Tab wird geöffnet. Wählen Sie die Dropdownliste "Beispielmodus " und dann den KQL-Modus aus.

  5. Um die Azure Metriken zu untersuchen, geben Sie eine benutzerdefinierte Abfrage ein, oder kopieren Sie die folgende Abfrage, und fügen Sie sie ein:

    AzureMetrics
    | take 100
    | project TimeGenerated, MetricName, Total, Count, Maximum, Minimum, Average, TimeGrain, UnitName
    
  6. Wählen Sie "Ausführen" aus.

    Hinweis

    Wenn Sie Monitoring>Logs im Menü für Ihre Ressource auswählen, wird Log Analytics geöffnet, wobei der Abfragebereich auf die aktuelle Ressource festgelegt ist. Die sichtbaren Protokollabfragen enthalten nur Daten aus dieser bestimmten Ressource. Wenn Sie eine Abfrage ausführen möchten, die Daten aus anderen Ressourcen oder Daten aus anderen Azure Diensten enthält, wählen Sie Logs aus dem Menü Azure Monitor im Azure Portal aus. Weitere Informationen finden Sie unter Log-Abfragebereich und -zeitbereich in Azure Monitor Log Analytics.

Problembehandlung

Angelegenheit Mögliche Ursache Auflösung
Metriken, die im Metrik-Explorer nicht angezeigt werden Der Ressourcentypfilter ist möglicherweise nicht ordnungsgemäß festgelegt. Stellen Sie sicher, dass Ressourcentypen in der Bereichsauswahl auf " Foundry Tools " festgelegt sind.
Keine Protokolldaten in Log Analytics Diagnoseeinstellungen sind nicht konfiguriert oder Daten sind noch nicht eingegangen. Konfigurieren Sie Diagnoseeinstellungen , und warten Sie bis zu 15 Minuten, bis Daten angezeigt werden.
Metriken zeigen Nullwerte an Die Modellbereitstellung hat möglicherweise keinen Datenverkehr im ausgewählten Zeitraum erhalten. Passen Sie den Zeitraum im Metrik-Explorer an, oder überprüfen Sie, ob die Bereitstellung Anforderungen empfängt.
Kostendaten in Microsoft Cost Management nicht sichtbar Fehlende Berechtigungen oder Abrechnungsverzögerung. Stellen Sie sicher, dass Sie mindestens Lesezugriff auf das Azure-Konto haben. Kostendaten können bis zu fünf Stunden dauern, bis sie angezeigt werden.
429 Fehler bei Modellaufrufen Die bereitgestellte Nutzung liegt bei oder über 100%. Überprüfen Sie die Metrik " Provisioned Utilization ", und skalieren Sie PTUs, oder reduzieren Sie das Anforderungsvolumen.

Nächste Schritte