Pre-elaborare i dati e configurare la definizione delle funzionalità

Completato

Prima di poter eseguire un esperimento di Machine Learning automatizzato (AutoML), è necessario preparare i dati. Quando si vuole eseguire il training di un modello di Machine Learning, è sufficiente fornire i dati di training.

Dopo aver raccolto i dati, è necessario creare un asset di dati in Azure Machine Learning. Per consentire a AutoML di comprendere come leggere i dati, è necessario creare un asset di dati MLTable che includa lo schema dei dati.

È possibile creare un asset di dati MLTable quando i dati vengono archiviati in una cartella insieme a un file MLTable. Dopo aver creato l'asset di dati, è possibile specificarlo come input con il codice seguente:

from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import Input

my_training_data_input = Input(type=AssetTypes.MLTABLE, path="azureml:input-data-automl:1")

Dopo aver creato l'asset di dati, è possibile configurare l'esperimento AutoML. Prima che AutoML esegua il training di un modello di classificazione, è possibile applicare le trasformazioni di pre-elaborazione ai dati.

Comprendere il ridimensionamento e la normalizzazione

AutoML applica automaticamente la scalabilità e la normalizzazione ai dati numerici, impedendo a qualsiasi funzionalità su larga scala di dominare il training. Durante un esperimento autoML vengono applicate più tecniche di ridimensionamento o normalizzazione.

Configurare le funzionalità facoltative

È possibile scegliere di applicare automaticamente trasformazioni di pre-elaborazione, ad esempio:

  • Imputazione di valori mancanti per eliminare i valori null nel set di dati di addestramento.
  • Codifica categorica per convertire le funzionalità categoriche in indicatori numerici.
  • Eliminazione delle funzionalità con cardinalità elevata, ad esempio gli ID record.
  • Progettazione di funzionalità (ad esempio, derivazione di singole parti di data dalle funzionalità DateTime)

Per impostazione predefinita, AutoML esegue la featurizzazione sui tuoi dati. È possibile disabilitarla se non si vuole trasformare i dati.

Se si vuole usare la funzione di definizione delle caratteristiche integrata, è possibile personalizzarla. Ad esempio, è possibile specificare il metodo di imputazione da usare per una funzionalità specifica.

Al termine di un esperimento AutoML, è possibile esaminare i metodi di ridimensionamento e normalizzazione applicati. Si riceve una notifica se AutoML ha rilevato problemi con i dati, ad esempio se mancano valori o squilibri di classe.