Importare asset di dati (anteprima)

SI APPLICA A:Estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)SDK Python azure-ai-ml v2 (corrente)

Questo articolo illustra come importare dati nella piattaforma Azure Machine Learning da origini esterne. Un'importazione dei dati completata crea e registra automaticamente un asset di dati di Azure Machine Learning con il nome specificato durante l'importazione. Un asset di dati di Azure Machine Learning è simile a un segnalibro del Web browser (preferiti). Non è necessario ricordare i percorsi di archiviazione lunghi (URI) che puntano ai dati usati più di frequente. È invece possibile creare una risorsa dati e quindi accedere a tale risorsa usando un nome amichevole.

Un'importazione di dati crea una cache dei dati di origine, insieme ai metadati, per un accesso ai dati più veloce e affidabile nei processi di training di Azure Machine Learning. La cache dei dati evita vincoli di rete e connessione. Il controllo delle versioni dei dati memorizzati nella cache consente di supportare la riproducibilità. Questa funzionalità offre funzionalità di controllo delle versioni per i dati importati dalle origini di SQL Server. Inoltre, i dati memorizzati nella cache forniscono la derivazione dei dati per le attività di controllo. Un'importazione di dati usa pipeline di Azure Data Factory (ADF) in background, il che significa che è possibile evitare interazioni complesse con Azure Data Factory. Azure Machine Learning gestisce anche le dimensioni del pool di risorse di calcolo di Azure Data Factory, il provisioning e l'eliminazione delle risorse di calcolo. Questa gestione ottimizza il trasferimento dei dati determinando la parallelizzazione corretta.

I dati trasferiti vengono partizionati e archiviati in modo sicuro in Archiviazione di Azure, come file parquet. Questa risorsa di archiviazione consente un'elaborazione più rapida durante il training. I costi di calcolo di Azure Data Factory comportano solo il tempo usato per i trasferimenti di dati. I costi di archiviazione comportano solo il tempo necessario per memorizzare nella cache i dati, perché i dati memorizzati nella cache sono una copia dei dati importati da un'origine esterna. Archiviazione di Azure ospita l'origine esterna.

La funzionalità di memorizzazione nella cache comporta costi iniziali di calcolo e archiviazione. Tuttavia, paga per se stesso e può risparmiare denaro, perché riduce i costi di calcolo di training ricorrenti, rispetto alle connessioni dirette ai dati di origine esterna durante il training. Memorizza nella cache i dati come file parquet, che rende il training del processo più veloce e più affidabile rispetto ai timeout di connessione per set di dati di dimensioni maggiori. Questa memorizzazione nella cache comporta un minor numero di riesecuzioni e un minor numero di errori di training.

È possibile importare dati da Amazon S3, Azure SQL e Snowflake.

Importante

Questa funzionalità è attualmente disponibile in anteprima pubblica. Questa versione di anteprima viene fornita senza Contratto di servizio. Pertanto se ne sconsiglia l'uso per i carichi di lavoro in ambienti di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero offrire funzionalità limitate.

Per altre informazioni, vedere Condizioni supplementari per l'utilizzo delle anteprime di Microsoft Azure.

Prerequisiti

Per creare e usare asset di dati, è necessario:

Una sottoscrizione di Azure. Se non si dispone di una sottoscrizione di Azure, creare un account gratuito prima di iniziare. Provare la versione gratuita o a pagamento di Azure Machine Learning.
Un'area di lavoro di Azure Machine Learning. Creare le risorse dell'area di lavoro.
Python 3.10 o versione successiva.
L'interfaccia della riga di comando/SDK di Azure Machine Learning installata.
Connessioni all'area di lavoro create.

Note

Per un'importazione corretta dei dati, verificare di aver installato il pacchetto azure-ai-ml più recente (versione 1.31.0 o successiva) per SDK e l'estensione ml (versione 2.37.0 o successiva). È necessario Python 3.9 o versione successiva.

Se si dispone di un pacchetto SDK o di un'estensione dell'interfaccia della riga di comando precedente, rimuovere quello precedente e installarlo nuovo usando il codice illustrato nella sezione della scheda. Seguire le istruzioni per SDK e interfaccia della riga di comando, come illustrato di seguito:

Versioni del codice

az extension remove -n ml
az extension add -n ml --yes
az extension show -n ml #(the version value needs to be 2.37.0 or later)

pip install azure-ai-ml
pip show azure-ai-ml #(the version value needs to be 1.31.0 or later)

Importare da un database esterno come asset di dati mltable

Note

I database esterni includono Snowflake e Azure SQL.

Gli esempi di codice seguenti possono importare dati da database esterni. Il connection che gestisce l'azione di importazione determina i metadati dell'origine dati del database esterno. In questo esempio il codice importa i dati da una risorsa Snowflake. La connessione punta a un'origine Snowflake. Con una piccola modifica, la connessione può puntare a un'origine del database SQL di Azure o a un'altra origine di database supportata. Il type di asset importato da un'origine di database esterna è mltable.

Creare un file YAML<file-name>.yml:

$schema: http://azureml/sdk-2-0/DataImport.json
# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# Datastore: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}


type: mltable
name: <name>
source:
  type: database
  query: <query>
  connection: <connection>
path: <path>

Eseguire quindi il comando seguente nell'interfaccia della riga di comando:

> az ml data import -f <file-name>.yml


from azure.ai.ml.entities import DataImport
from azure.ai.ml.data_transfer import Database
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}

ml_client = MLClient.from_config(credential=DefaultAzureCredential())

data_import = DataImport(
    name="<name>",
    source=Database(connection="<connection>", query="<query>"),
    path="<path>"
    )
ml_client.data.import_data(data_import=data_import)

Note

L'esempio illustrato di seguito descrive il processo per un database Snowflake. Tuttavia, questo processo copre altri formati di database esterni, ad esempio SQL di Azure e così via.

Passare ad Azure Machine Learning Studio.
Nel riquadro di spostamento a sinistra selezionare Dati in Asset. Selezionare quindi la scheda Importazione dati. Quindi, selezionare Crea come illustrato in questo screenshot:
Nella schermata Origine dati selezionare Snowflake e quindi selezionare Avanti, come illustrato nello screenshot seguente:
Nella schermata Tipo di dati immettere i valori. Il valore predefinito Type è Table (mltable). Selezionare quindi Avanti, come illustrato in questo screenshot:
Nella schermata Crea importazione dati compilare i valori e selezionare Avanti, come illustrato nello screenshot seguente:
Compilare i valori nella schermata Scegliere un archivio dati per l'output e selezionare Avanti, come illustrato nello screenshot seguente. L'archivio dati gestito dell'area di lavoro è selezionato per impostazione predefinita; il percorso viene assegnato automaticamente dal sistema quando si sceglie l'archivio dati gestito. Se si seleziona archivio dati gestito dell'area di lavoro, viene visualizzato l’elenco a discesa Impostazione di eliminazione automatica. Offre un intervallo di tempo di eliminazione dei dati di 30 giorni per impostazione predefinita e in Come gestire gli asset di dati importati viene spiegato come modificare questo valore.

Note

Per scegliere un archivio dati personalizzato, selezionare Altri archivi dati. In tal caso, è necessario selezionare il percorso per la posizione della cache dei dati.

È possibile aggiungere una pianificazione. Selezionare Aggiungi pianificazione come illustrato nello screenshot seguente:

Viene aperto un nuovo pannello, in cui è possibile definire una pianificazione Ricorrenza o una Cron. Questo screenshot mostra il pannello per una pianificazione Ricorrenza:

Nome: identificatore univoco della pianificazione nell'area di lavoro.
Descrizione: descrizione della pianificazione.
Trigger: criterio di ricorrenza della pianificazione, che include le proprietà seguenti.
- Fuso orario: il calcolo dell'ora di attivazione si basa su questo fuso orario; per impostazione predefinita, è UTC (Coordinated Universal Time).
- Ricorrenza o Espressione cron: selezionare la ricorrenza per specificare il criterio ricorrente. In Ricorrenza è possibile specificare la frequenza di ricorrenza in minuti, ore, giorni, settimane o mesi.
- Avvio: la pianificazione diventa attiva per la prima volta in questa data. Per impostazione predefinita, la data di creazione di questa pianificazione.
- Fine: la pianificazione diventa inattiva dopo questa data. Per impostazione predefinita, è NONE, il che significa che la pianificazione è sempre attiva fino a quando non viene disabilitata manualmente.
- Tag: tag della pianificazione selezionati.

Note

Inizio specifica la data e l'ora di inizio con il fuso orario della pianificazione. Se si omette Start, l'ora di inizio è uguale all'ora di creazione della pianificazione. Per un'ora di inizio nel passato, il primo processo viene eseguito in occasione dell’ora di esecuzione successiva calcolata.

Lo screenshot seguente mostra l'ultima schermata di questo processo. Esaminare le scelte effettuate e selezionare Crea. In questa schermata e nelle altre schermate di questo processo selezionare Indietro per passare alle schermate precedenti per modificare le scelte dei valori.

Lo screenshot seguente mostra il pannello per una pianificazione Cron :

Nome: identificatore univoco della pianificazione nell'area di lavoro.
Descrizione: descrizione della pianificazione.

Trigger: criterio di ricorrenza della pianificazione, che include le proprietà seguenti.

Fuso orario: il calcolo dell'ora di attivazione si basa su questo fuso orario; per impostazione predefinita, è UTC (Coordinated Universal Time).
Ricorrenza o Espressione Cron: selezionare l'espressione cron per specificare i dettagli cron.

(Obbligatorio)expression usa un'espressione crontab standard per esprimere una pianificazione ricorrente. Una singola espressione è costituita da cinque campi delimitati da spazi:

MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK

Un singolo carattere jolly (*), che copre tutti i valori per il campo. Un *, in giorni, indica tutti i giorni di un mese (che varia con mese e anno).
Nell'esempio expression: "15 16 * * 1" precedente indica le 14:15 ogni lunedì.

Nella tabella successiva sono elencati i valori validi per ogni campo:

Campo	Range	Comment
`MINUTES`	0-59	-
`HOURS`	0-23	-
`DAYS`	-	Non supportato. Il valore viene ignorato e considerato come `*`.
`MONTHS`	-	Non supportato. Il valore viene ignorato e considerato come `*`.
`DAYS-OF-WEEK`	0-6	Zero (0) indica la domenica. Sono accettati anche i nomi dei giorni.

Per altre informazioni sulle espressioni crontab, visitare la wiki Espressione Crontab in GitHub.

Importante

DAYS e MONTH non sono supportati. Se si passa uno di questi valori, viene ignorato come *.

Avvio: la pianificazione diventa attiva per la prima volta in questa data. Per impostazione predefinita, la data di creazione di questa pianificazione.
Fine: la pianificazione diventa inattiva dopo questa data. Per impostazione predefinita, è NONE, il che significa che la pianificazione è sempre attiva fino a quando non viene disabilitata manualmente.
Tag: tag della pianificazione selezionati.

Note

Importare dati da un file system esterno come asset di dati di cartelle

Note

Una risorsa dati Amazon S3 può fungere da risorsa file system esterna.

Il connection che gestisce l'azione di importazione dei dati determina gli aspetti dell'origine dati esterna. La connessione definisce un bucket Amazon S3 come destinazione. La connessione prevede un valore path valido. Un valore di asset importato da un'origine del file system esterno ha un type di uri_folder.

L'esempio di codice successivo importa i dati da una risorsa Amazon S3.

Creare un file YAML<file-name>.yml:

$schema: http://azureml/sdk-2-0/DataImport.json
# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}


type: uri_folder
name: <name>
source:
  type: file_system
  path: <path_on_source>
  connection: <connection>
path: <path>

Eseguire, quindi, questo comando nell'interfaccia della riga di comando:

> az ml data import -f <file-name>.yml


from azure.ai.ml.entities import DataImport
from azure.ai.ml.data_transfer import FileSystem
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}

ml_client = MLClient.from_config(credential=DefaultAzureCredential())

data_import = DataImport(
    name="<name>",
    source=FileSystem(connection="<connection>", path="<path_on_source>"),
    path="<path>"
    )
ml_client.data.import_data(data_import=data_import)

Passare ad Azure Machine Learning Studio.
Nel riquadro di spostamento a sinistra selezionare Dati in Asset. Selezionare quindi la scheda Importazione dati. Selezionare quindi Crea come illustrato nello screenshot seguente:
Nella schermata Origine dati selezionare S3 e quindi selezionare Avanti, come illustrato nello screenshot seguente:
Nella schermata Tipo di dati immettere i valori. Il valore predefinito Type è Folder (uri_folder). Selezionare quindi Avanti, come illustrato nello screenshot seguente:
Nella schermata Crea importazione dati compilare i valori e selezionare Avanti, come illustrato nello screenshot seguente:
Compilare i valori nella schermata Scegliere un archivio dati per l'output e selezionare Avanti, come illustrato nello screenshot seguente. L'archivio dati gestito dell'area di lavoro è selezionato per impostazione predefinita; il percorso viene assegnato automaticamente dal sistema quando si sceglie l'archivio dati gestito. Se si seleziona archivio dati gestito dell'area di lavoro, viene visualizzato l’elenco a discesa Impostazione di eliminazione automatica. Offre un intervallo di tempo di eliminazione dei dati di 30 giorni per impostazione predefinita e in Come gestire gli asset di dati importati viene spiegato come modificare questo valore.
È possibile aggiungere una pianificazione. Selezionare Aggiungi pianificazione come illustrato nello screenshot seguente:
Viene aperto un nuovo pannello, in cui è possibile definire una pianificazione Ricorrenza o una pianificazione Cron. Il seguente screenshot mostra il pannello per una pianificazione di Ricorrenza:
- Nome: identificatore univoco della pianificazione nell'area di lavoro.
- Descrizione: descrizione della pianificazione.
- Trigger: criterio di ricorrenza della pianificazione, che include le proprietà seguenti.
  - Fuso orario: il calcolo dell'ora di attivazione si basa su questo fuso orario; per impostazione predefinita, è UTC (Coordinated Universal Time).
  - Ricorrenza o Espressione cron: selezionare la ricorrenza per specificare il criterio ricorrente. In Ricorrenza è possibile specificare la frequenza di ricorrenza in minuti, ore, giorni, settimane o mesi.
  - Avvio: la pianificazione diventa attiva per la prima volta in questa data. Per impostazione predefinita, la data di creazione di questa pianificazione.
  - Fine: la pianificazione diventa inattiva dopo questa data. Per impostazione predefinita, è NONE, il che significa che la pianificazione è sempre attiva fino a quando non viene disabilitata manualmente.
  - Tag: tag della pianificazione selezionati.
Note

Inizio specifica la data e l'ora di inizio con il fuso orario della pianificazione. Se si omette Start, l'ora di inizio è uguale all'ora di creazione della pianificazione. Per un'ora di inizio nel passato, il primo processo viene eseguito in occasione dell’ora di esecuzione successiva calcolata.
Esaminare le scelte effettuate nell'ultima schermata di questo processo e selezionare Crea. In questa schermata e nelle altre schermate di questo processo selezionare Indietro per passare alle schermate precedenti se si desidera modificare le scelte dei valori.

Esaminare le scelte effettuate e selezionare Crea. In questa schermata e nelle altre schermate di questo processo selezionare Indietro per passare alle schermate precedenti per modificare le scelte dei valori.

Lo screenshot seguente mostra il pannello per una pianificazione Cron :

Nome: identificatore univoco della pianificazione nell'area di lavoro.
Descrizione: descrizione della pianificazione.

Trigger: criterio di ricorrenza della pianificazione, che include le proprietà seguenti.

Fuso orario: il calcolo dell'ora di attivazione si basa su questo fuso orario; per impostazione predefinita, è UTC (Coordinated Universal Time).
Ricorrenza o Espressione Cron: selezionare l'espressione cron per specificare i dettagli cron.

(Obbligatorio)expression usa un'espressione crontab standard per esprimere una pianificazione ricorrente. Una singola espressione è costituita da cinque campi delimitati da spazi:

MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK

Un singolo carattere jolly (*), che copre tutti i valori per il campo. Un *, in giorni, indica tutti i giorni di un mese (che varia con mese e anno).
Nell'esempio expression: "15 16 * * 1" precedente indica le 14:15 ogni lunedì.

Nella tabella successiva sono elencati i valori validi per ogni campo:

Campo	Range	Comment
`MINUTES`	0-59	-
`HOURS`	0-23	-
`DAYS`	-	Non supportato. Il valore viene ignorato e considerato come `*`.
`MONTHS`	-	Non supportato. Il valore viene ignorato e considerato come `*`.
`DAYS-OF-WEEK`	0-6	Zero (0) indica la domenica. Sono accettati anche i nomi dei giorni.

Per altre informazioni sulle espressioni crontab, visitare la wiki Espressione Crontab in GitHub.

Importante

DAYS e MONTH non sono supportati. Se si passa uno di questi valori, viene ignorato come *.

Avvio: la pianificazione diventa attiva per la prima volta in questa data. Per impostazione predefinita, la data di creazione di questa pianificazione.
Fine: la pianificazione diventa inattiva dopo questa data. Per impostazione predefinita, è NONE, il che significa che la pianificazione è sempre attiva fino a quando non viene disabilitata manualmente.
Tag: tag della pianificazione selezionati.

Note

Controllare lo stato di importazione delle origini dati esterne

L'azione di importazione dei dati è un'azione asincrona. L'operazione può richiedere molto tempo. Dopo aver inviato un'azione di importazione dei dati tramite l'interfaccia della riga di comando o l'SDK, il servizio Azure Machine Learning potrebbe richiedere alcuni minuti per connettersi all'origine dati esterna. Il servizio avvia quindi l'importazione dei dati e gestisce la memorizzazione nella cache e la registrazione dei dati. Il tempo necessario per un'importazione di dati dipende anche dalle dimensioni del set di dati di origine.

Nell'esempio seguente viene restituito lo stato dell'attività di importazione dei dati inviata. Il comando o il metodo usa il nome dell'asset di dati come input per determinare lo stato della materializzazione dei dati.

> az ml data list-materialization-status --name <name>

from azure.ai.ml.entities import DataImport
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())

ml_client.data.list_materialization_status(name="<name>")

Passaggi successivi

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-03-20

Condividi tramite

Importare asset di dati (anteprima)

Prerequisiti

Versioni del codice

Importare da un database esterno come asset di dati mltable

Importare dati da un file system esterno come asset di dati di cartelle

Controllare lo stato di importazione delle origini dati esterne

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive