Azure Machine Learning-gegevensset maken en verkennen met labels

Belangrijk

Dit artikel biedt informatie over het gebruik van de Azure Machine Learning SDK v1. SDK v1 is vanaf 31 maart 2025 afgeschaft. Ondersteuning voor het zal eindigen op 30 juni 2026. U kunt SDK v1 tot die datum installeren en gebruiken. Uw bestaande werkstromen met SDK v1 blijven werken na de einddatum van de ondersteuning. Ze kunnen echter worden blootgesteld aan beveiligingsrisico's of incompatibiliteit door wijzigingen in de architectuur van het product.

We raden aan dat u overstapt naar SDK v2 vóór 30 juni 2026. Zie Wat is Azure Machine Learning CLI en Python SDK v2? en de SDK v2-verwijzing voor meer informatie over SDK v2.

In dit artikel leert u hoe u de gegevenslabels uit een Azure Machine Learning-gegevenslabelproject exporteert en laadt in populaire indelingen, zoals een pandas-dataframe voor gegevensverkenning.

Wat zijn gegevenssets met labels?

Azure Machine Learning-gegevenssets met labels worden aangeduid als gelabelde gegevenssets. Deze specifieke gegevenssets zijn TabularDatasets met een toegewezen labelkolom en worden alleen gemaakt als uitvoer van Azure Machine Learning-gegevenslabelprojecten. Maak een gegevenslabelproject voor het labelen van afbeeldingen of tekstlabels. Machine Learning ondersteunt projecten voor gegevenslabels voor afbeeldingsclassificatie, meerdere labels of meerdere klassen, en objectidentificatie samen met gebonden vakken.

Vereisten

Gegevenslabels exporteren

Wanneer u een gegevenslabelproject voltooit, kunt u de labelgegevens exporteren uit een labelproject. Hierdoor kunt u zowel de verwijzing naar de gegevens als de bijbehorende labels vastleggen en deze exporteren in COCO-indeling of als een Azure Machine Learning-gegevensset.

Gebruik de knop Exporteren op de pagina Projectdetails van het labelproject.

Knop Exporteren in de gebruikersinterface van Studio

COCO

Het COCO-bestand wordt gemaakt in de Blob-standaardopslag van de Azure Machine Learning-werkruimte in een map binnen export/coco.

Notitie

In objectdetectieprojecten worden de geëxporteerde bbox: [x,y,width,height] waarden in COCO-bestand genormaliseerd. Ze worden geschaald naar 1. Een begrenzingsvak bijvoorbeeld op (10, 10) locatie, met 30 pixels breedte, 60 pixels hoogte, in een afbeelding van 640x480 pixels wordt geannoteerd als (0,015625. 0,02083, 0,046875, 0,125). Omdat de coördinaten zijn genormaliseerd, wordt deze weergegeven als '0,0' als 'width' en 'height' voor alle afbeeldingen. De werkelijke breedte en hoogte kunnen worden verkregen met behulp van een Python-bibliotheek zoals OpenCV of Pillow(PIL).

Azure Machine Learning-gegevensset

U hebt toegang tot de geëxporteerde Azure Machine Learning-gegevensset in de sectie Gegevenssets van uw Azure Machine Learning-studio. De pagina Details van de gegevensset bevat ook voorbeeldcode voor toegang tot uw labels vanuit Python.

Geëxporteerde gegevens

Aanbeveling

Zodra u uw gelabelde gegevens naar een Azure Machine Learning-gegevensset hebt geëxporteerd, kunt u AutoML gebruiken om computer Vision-modellen te bouwen die zijn getraind op uw gelabelde gegevens. Meer informatie op AutoML instellen voor het trainen van Computer Vision-modellen met Python

Gelabelde gegevenssets verkennen via pandas-dataframe

Laad uw gelabelde gegevenssets in een pandas-dataframe om populaire opensource-bibliotheken te gebruiken voor gegevensverkenning met de to_pandas_dataframe() methode uit de azureml-dataprep klasse.

Installeer de klasse met de volgende shell-opdracht:

pip install azureml-dataprep

In de volgende code is de animal_labels gegevensset de uitvoer van een labelproject dat eerder in de werkruimte is opgeslagen. De geëxporteerde gegevensset is een TabularDataset.

VAN TOEPASSING OP:Azure Machine Learning SDK v1 voor Python

import azureml.core
from azureml.core import Dataset, Workspace

# get animal_labels dataset from the workspace
animal_labels = Dataset.get_by_name(workspace, 'animal_labels')
animal_pd = animal_labels.to_pandas_dataframe()

Volgende stappen