Aanbevolen procedures voor GPU-waarneembaarheid voor Azure Kubernetes Service (AKS)

Dit artikel bevat aanbevolen procedures voor het bewaken en interpreteren van GPU-signalen op Azure Kubernetes Service (AKS). In plaats van te kijken naar metrische NVIDIA GPU-gegevens in isolatie, correleert u signalen over het gebruik, het geheugen en de workloadcontext om de prestaties en efficiëntie van knooppunten op de lange termijn te verbeteren.

Important

AKS preview-functies zijn beschikbaar op selfservice, opt-in basis. Previews worden geleverd 'zoals het is' en 'voor zover beschikbaar' en zijn uitgesloten van de serviceovereenkomsten en beperkte garantie. AKS-previews worden gedeeltelijk gedekt door klantondersteuning naar best vermogen. Zodoende zijn deze functies niet bedoeld voor productiegebruik. Zie de volgende ondersteuningsartikelen voor meer informatie:

Inzicht in GPU-gebruik versus verzadiging

Behandel de NVIDIA DCGM-meetwaarde DCGM_FI_DEV_GPU_UTIL niet als een directe efficiëntiescore. DCGM_FI_DEV_GPU_UTIL geeft alleen aan hoe vaak kernels actief zijn, dus het geeft niet aan of de workload rekenefficiënt is. U krijgt nauwkeurigere richtlijnen door gebruikssignalen te correleren in plaats van ze onafhankelijk te lezen. Vergelijk DCGM_FI_DEV_GPU_UTIL met DCGM_FI_PROF_SM_ACTIVEen vergelijk DCGM_FI_PROF_SM_ACTIVE vervolgens met DCGM_FI_PROF_DRAM_ACTIVE om te bepalen of uw knelpunt reken-, geheugen- of start- en synchronisatieoverhead is.

Hoog DCGM_FI_DEV_GPU_UTIL met laag DCGM_FI_PROF_SM_ACTIVE wijst vaak op opstartoverhead, synchronisatiestagneringen of geheugenconcurrentie. Hoog DCGM_FI_PROF_SM_ACTIVE met laag DCGM_FI_PROF_DRAM_ACTIVE is consistenter met CPU-gebonden gedrag. Hoger DCGM_FI_PROF_DRAM_ACTIVE met lager DCGM_FI_PROF_SM_ACTIVE wijst meestal op geheugenbeperkte uitvoering.

Note

DCGM_FI_PROF_SM_ACTIVE en DCGM_FI_PROF_DRAM_ACTIVE zijn DCGM-profileringsvelden en worden mogelijk niet standaard weergegeven voor alle TYPEN NVIDIA GPU-architectuur die worden aangeboden in Azure VM-grootten (Virtual Machine).

Deze correlatiegerichte aanpak helpt u te voorkomen dat u opschaalt als het onderliggende probleem ligt bij de kernefficiëntie of patronen voor geheugentoegang. Zie de GEBRUIKERShandleiding voor NVIDIA DCGM voor gedetailleerde metrische semantiek.

Geheugendruk gebruiken als primair planningssignaal

Als het geheugen herhaaldelijk de drempel van onvoldoende geheugen nadert, behandel dat patroon als een vroege indicator van instabiliteit. Kubernetes heeft geen eigen signaal voor GPU-geheugendruk, dus VRAM-uitputting komt meestal alleen voor als OOM-kills van containers en pod-onderbreking, vaak goed nadat DCGM-telemetrie de trend laat zien.

Levenscyclusacties van knooppunten automatiseren vanuit GPU-statussignalen

Deze procedure is vooral belangrijk voor langlevende AKS GPU-knooppuntgroepen waarbij de veroudering van de host kan variëren tussen knooppunten.

Waarneembaarheidssignalen uitlijnen met schaalbeslissingen

Voor verticale schaalaanpassing maakt u een nieuwe knooppuntgroep aan op een andere Azure GPU-geschikte VM-SKU en migreert u workloads wanneer doorvoer beperkt wordt door stroom- of thermische beperkingen, bijvoorbeeld wanneer DCGM_FI_DEV_POWER_USAGE bijna aan zijn limiet zit terwijl DCGM_FI_PROF_SM_ACTIVE ondanks de vraag gelijk blijft.

Afzonderlijk MIG- en niet-MIG-waarneembaarheidsbeleid

Wanneer MIG is ingeschakeld, verschuift het bereik van elke metriek, waardoor de signalen anders moeten worden geïnterpreteerd.

Metrische gegevens over de kostenbewuste GPU-efficiëntie publiceren

Optimaliseren voor zichtbaarheid van kosten, niet alleen prestaties. Een afgeleide metriek met hoge waarde voor AKS-platformteams is GPU-seconden die worden gebruikt ten opzichte van GPU-seconden toegewezen. Gebruik DCGM-telemetrie en Kubernetes-contextkoppelingen om deze metriek per naamruimte en workload-klasse te publiceren, en volg deze vervolgens in de loop van de tijd als een gedeelde KPI voor platform- en financiële teams. Deze benadering definieert een algemene bron van waarheid voor optimalisatiebeslissingen en helpt voorkomen dat overtoewijzing wordt verborgen door gemiddelden van geaggregeerd gebruik.

Volgende stappen