Pre-elaborare i dati e configurare la definizione delle funzionalità

3 minuti

Prima di poter eseguire un esperimento di Machine Learning automatizzato (AutoML), è necessario preparare i dati. Quando si vuole eseguire il training di un modello di Machine Learning, è sufficiente fornire i dati di training.

Dopo aver raccolto i dati, è necessario creare un asset di dati in Azure Machine Learning. Per consentire a AutoML di comprendere come leggere i dati, è necessario creare un asset di dati MLTable che includa lo schema dei dati.

È possibile creare un asset di dati MLTable quando i dati vengono archiviati in una cartella insieme a un file MLTable. Dopo aver creato l'asset di dati, è possibile specificarlo come input con il codice seguente:

from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import Input

my_training_data_input = Input(type=AssetTypes.MLTABLE, path="azureml:input-data-automl:1")

Suggerimento

Altre informazioni su come creare un asset di dati MLTable in Azure Machine Learning.

Dopo aver creato l'asset di dati, è possibile configurare l'esperimento AutoML. Prima che AutoML esegua il training di un modello di classificazione, è possibile applicare le trasformazioni di pre-elaborazione ai dati.

Comprendere il ridimensionamento e la normalizzazione

AutoML applica automaticamente la scalabilità e la normalizzazione ai dati numerici, impedendo a qualsiasi funzionalità su larga scala di dominare il training. Durante un esperimento autoML vengono applicate più tecniche di ridimensionamento o normalizzazione.

Configurare le funzionalità facoltative

È possibile scegliere di applicare automaticamente trasformazioni di pre-elaborazione, ad esempio:

Imputazione di valori mancanti per eliminare i valori null nel set di dati di addestramento.
Codifica categorica per convertire le funzionalità categoriche in indicatori numerici.
Eliminazione delle funzionalità con cardinalità elevata, ad esempio gli ID record.
Progettazione di funzionalità (ad esempio, derivazione di singole parti di data dalle funzionalità DateTime)

Per impostazione predefinita, AutoML esegue la featurizzazione sui tuoi dati. È possibile disabilitarla se non si vuole trasformare i dati.

Se si vuole usare la funzione di definizione delle caratteristiche integrata, è possibile personalizzarla. Ad esempio, è possibile specificare il metodo di imputazione da usare per una funzionalità specifica.

Al termine di un esperimento AutoML, è possibile esaminare i metodi di ridimensionamento e normalizzazione applicati. Si riceve una notifica se AutoML ha rilevato problemi con i dati, ad esempio se mancano valori o squilibri di classe.

Commenti e suggerimenti

Questa pagina è stata utile?