Gegevens vooraf verwerken en featurization configureren

6 minuten

Voordat u een geautomatiseerd Machine Learning-experiment (AutoML) kunt uitvoeren, moet u uw gegevens voorbereiden. Als u een classificatiemodel wilt trainen, hoeft u alleen de trainingsgegevens op te geven.

Nadat u de gegevens hebt verzameld, moet u een gegevensasset maken in Azure Machine Learning. Als u wilt weten hoe AutoML de gegevens moet lezen, moet u een MLTable- gegevensasset maken dat het schema van de gegevens bevat.

U kunt een MLTable-gegevensasset maken wanneer uw gegevens worden opgeslagen in een map samen met een MLTable-bestand. Wanneer u de gegevensasset hebt gemaakt, kunt u deze opgeven als invoer met de volgende code:

from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import Input

my_training_data_input = Input(type=AssetTypes.MLTABLE, path="azureml:input-data-automl:1")

Tip

Meer informatie over hoe je een MLTable-gegevensasset maakt in Azure Machine Learning.

Nadat u de gegevensasset hebt gemaakt, kunt u het AutoML-experiment configureren. Voordat AutoML een classificatiemodel traint, kunnen voorverwerkingstransformaties worden toegepast op uw gegevens.

Inzicht in schalen en normalisatie

AutoML past automatisch schalen en normaliseren toe op numerieke gegevens, waardoor eventuele grootschalige functies geen training kunnen overheersen. Tijdens een AutoML-experiment worden meerdere schaal- of normalisatietechnieken toegepast.

Optionele kenmerkanalyse configureren

U kunt ervoor kiezen om voorverwerkingstransformaties toe te passen op AutoML, zoals:

Ontbrekende waarde-imputatie om null-waarden in de trainingsgegevensset te elimineren.
Categorische codering om categorische functies te converteren naar numerieke indicatoren.
Het verwijderen van functies met hoge kardinaliteit, zoals record-id's.
Functie-engineering (bijvoorbeeld het afleiden van afzonderlijke datumonderdelen van DateTime-functies)

AutoML voert standaard featurization uit op uw gegevens. U kunt deze uitschakelen als u niet wilt dat de gegevens worden getransformeerd.

Als u gebruik wilt maken van de geïntegreerde functie voor featurization, kunt u deze aanpassen. U kunt bijvoorbeeld opgeven welke imputatiemethode moet worden gebruikt voor een specifieke functie.

Nadat een AutoML-experiment is voltooid, kunt u controleren welke schaal- en normalisatiemethoden zijn toegepast. U krijgt ook een melding als AutoML problemen met de gegevens heeft gedetecteerd, bijvoorbeeld of er ontbrekende waarden of onevenwichtige klassen zijn.

Feedback

Is deze pagina nuttig?