Förbearbeta data och konfigurera funktionalisering

Slutförd

Innan du kan köra ett autoML-experiment (Automatiserad maskininlärning) måste du förbereda dina data. När du vill träna en maskininlärningsmodell behöver du bara tillhandahålla träningsdata.

När du har samlat in data måste du skapa en datatillgång i Azure Machine Learning. För att AutoML ska förstå hur du läser data måste du skapa en MLTable-datatillgång som innehåller schemat för data.

Du kan skapa en MLTable-datatillgång när dina data lagras i en mapp tillsammans med en MLTable-fil. När du har skapat datatillgången kan du ange den som indata med följande kod:

from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import Input

my_training_data_input = Input(type=AssetTypes.MLTABLE, path="azureml:input-data-automl:1")

När du har skapat datatillgången kan du konfigurera AutoML-experimentet. Innan AutoML tränar en klassificeringsmodell kan förbearbetning av transformeringar tillämpas på dina data.

Förstå skalning och normalisering

AutoML tillämpar skalning och normalisering på numeriska data automatiskt, vilket förhindrar att storskaliga funktioner dominerar träningen. Under ett AutoML-experiment används flera skalnings- eller normaliseringstekniker.

Konfigurera valfri funktionalisering

Du kan välja att låta AutoML tillämpa förbearbetningstransformeringar, till exempel:

  • Värdeimputation saknas för att eliminera nullvärden i träningsdatauppsättningen.
  • Kategorisk kodning för att konvertera kategoriska funktioner till numeriska indikatorer.
  • Släppa funktioner med hög kardinalitet, till exempel post-ID: er.
  • Funktionsutveckling (till exempel härleda enskilda datumdelar från DateTime-funktioner)

Som standard utför AutoML funktionalisering av dina data. Du kan inaktivera det om du inte vill att data ska transformeras.

Om du vill använda den integrerade funktionaliseringsfunktionen kan du anpassa den. Du kan till exempel ange vilken imputationsmetod som ska användas för en specifik funktion.

När ett AutoML-experiment har slutförts kan du granska vilka skalnings- och normaliseringsmetoder som tillämpades. Du får ett meddelande om AutoML har identifierat några problem med data, till exempel om det saknas värden eller obalans i klassen.