Pre-elaborare i dati e configurare la definizione delle funzionalità
Prima di poter eseguire un esperimento di Machine Learning automatizzato (AutoML), è necessario preparare i dati. Quando si vuole eseguire il training di un modello di Machine Learning, è sufficiente fornire i dati di training.
Dopo aver raccolto i dati, è necessario creare un asset di dati in Azure Machine Learning. Per consentire a AutoML di comprendere come leggere i dati, è necessario creare un asset di dati MLTable che includa lo schema dei dati.
È possibile creare un asset di dati MLTable quando i dati vengono archiviati in una cartella insieme a un file MLTable. Dopo aver creato l'asset di dati, è possibile specificarlo come input con il codice seguente:
from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import Input
my_training_data_input = Input(type=AssetTypes.MLTABLE, path="azureml:input-data-automl:1")
Suggerimento
Altre informazioni su come creare un asset di dati MLTable in Azure Machine Learning.
Dopo aver creato l'asset di dati, è possibile configurare l'esperimento AutoML. Prima che AutoML esegua il training di un modello di classificazione, è possibile applicare le trasformazioni di pre-elaborazione ai dati.
Comprendere il ridimensionamento e la normalizzazione
AutoML applica automaticamente la scalabilità e la normalizzazione ai dati numerici, impedendo a qualsiasi funzionalità su larga scala di dominare il training. Durante un esperimento autoML vengono applicate più tecniche di ridimensionamento o normalizzazione.
Configurare le funzionalità facoltative
È possibile scegliere di applicare automaticamente trasformazioni di pre-elaborazione, ad esempio:
- Imputazione di valori mancanti per eliminare i valori null nel set di dati di addestramento.
- Codifica categorica per convertire le funzionalità categoriche in indicatori numerici.
- Eliminazione delle funzionalità con cardinalità elevata, ad esempio gli ID record.
- Progettazione di funzionalità (ad esempio, derivazione di singole parti di data dalle funzionalità DateTime)
Per impostazione predefinita, AutoML esegue la featurizzazione sui tuoi dati. È possibile disabilitarla se non si vuole trasformare i dati.
Se si vuole usare la funzione di definizione delle caratteristiche integrata, è possibile personalizzarla. Ad esempio, è possibile specificare il metodo di imputazione da usare per una funzionalità specifica.
Al termine di un esperimento AutoML, è possibile esaminare i metodi di ridimensionamento e normalizzazione applicati. Si riceve una notifica se AutoML ha rilevato problemi con i dati, ad esempio se mancano valori o squilibri di classe.