Condividi tramite


Set di dati di esempio

Esistono diversi set di dati di esempio forniti da Azure Databricks e resi disponibili da terze parti che è possibile usare nell'area di lavoro di Azure Databricks.

Set di dati del catalogo Unity

Unity Catalog consente l'accesso a un certo numero di set di dati di esempio nel samples catalogo. È possibile esaminare questi set di dati nell'interfaccia utente di Esplora cataloghi e farvi riferimento direttamente in un notebook o nell'editor SQL usando il <catalog-name>.<schema-name>.<table-name> modello .

Nella tabella seguente sono elencati gli schemi disponibili nel samples catalogo:

Dataset Descrizione
nyctaxi Dati delle corse dei taxi per New York City.
tpch Set di dati su larga scala (circa 1 TB) dal benchmarkTPC-H.
tpcds_sf1 Set di dati su scala ridotta (circa 1 GB) dal benchmark TPC-DS.
wanderbricks Piattaforma simulata di prenotazione viaggi con utenti, proprietà, prenotazioni, recensioni e altro ancora.

nyctaxi

Lo nyctaxi schema contiene la tabella trips, che contiene informazioni dettagliate sulle corse in taxi a New York City. Nell'esempio seguente vengono restituiti i primi 10 record in questa tabella:

SQL

SELECT * FROM samples.nyctaxi.trips LIMIT 10

Pitone

display(spark.read.table("samples.nyctaxi.trips").limit(10))

tpch

Lo tpch schema contiene i dati del TPC-H Benchmark. Per elencare le tabelle in questo schema, eseguire:

SQL

SHOW TABLES IN samples.tpch

Pitone

display(spark.sql("SHOW TABLES IN samples.tpch"))

tpcds_sf1

Lo tpcds_sf1 schema contiene i dati del benchmarkTPC-DS. Per elencare le tabelle in questo schema, eseguire:

SQL

SHOW TABLES IN samples.tpcds_sf1;

Pitone

display(spark.sql("SHOW TABLES IN samples.tpcds_sf1"))

Per altre indicazioni su come usare questo set di dati per valutare le prestazioni del sistema, vedere Usare il set di dati di esempio TPC-DS per valutare le prestazioni del sistema.

wanderbricks

Lo wanderbricks schema contiene un set di dati simulato della piattaforma di prenotazione viaggi. Per informazioni dettagliate sulle tabelle del wanderbricks set di dati, vedere Set di dati Wanderbricks.

Set di dati di esempio di terze parti in formato CSV

Azure Databricks include strumenti predefiniti per caricare rapidamente set di dati di esempio di terze parti come file con valori delimitati da virgole (CSV) nelle aree di lavoro di Azure Databricks. Alcuni set di dati di esempio di terze parti più diffusi disponibili in formato CSV:

Set di dati di esempio Per scaricare il set di dati di esempio come file CSV...
Il censimento dello scoiattolo Nella pagina Web Dati fare clic su Park Data (Park Data),
Squirrel Data o storie.
Raccolta di set di dati OWID Nel repository GitHub fare clic sulla cartella set di dati. Fare clic sulla sottocartella contenente il set di dati di destinazione e quindi sul file CSV del set di dati.
Data.gov set di dati CSV Nella pagina Web dei risultati della ricerca fare clic sul risultato della ricerca di destinazione e accanto all'icona CSV fare clic su Scarica.
Diamanti (richiede un account Kaggle) Nella scheda Dati della pagina Web del set di dati, accanto a diamonds.csv, fare clic sull'icona Scarica nella scheda Dati.
Durata del viaggio in taxi di New York (richiede un account Kaggle) Nella pagina Web del set di dati, nella scheda Dati , accanto a sample_submission.zip, fare clic su
Icona di download . Per trovare i file CSV del set di dati, estrae il contenuto del file ZIP scaricato.

Per usare set di dati di esempio di terze parti nell'area di lavoro di Azure Databricks, eseguire le operazioni seguenti:

  1. Seguire le istruzioni di terze parti per scaricare il set di dati come file CSV nel computer locale.
  2. Caricare il file CSV dal computer locale nell'area di lavoro di Azure Databricks.
  3. Per usare i dati importati, usare Databricks SQL per eseguire query sui dati. In alternativa, è possibile usare un notebook per caricare i dati come dataframe.

Set di dati di esempio da terze parti nelle librerie

Alcune terze parti includono set di dati di esempio all'interno di librerie, ad esempio pacchetti Python Package Index (PyPI) o pacchetti CRAN (Comprehensive R Archive Network). Per altre informazioni, vedere la documentazione del provider di librerie.

Set di dati di Databricks (databricks-datasets) montati in DBFS

Azure Databricks sconsiglia l'uso di DBFS e l'archiviazione di oggetti cloud montati per la maggior parte dei casi d'uso nelle aree di lavoro di Databricks abilitate per Unity Catalog. Alcuni set di dati di esempio montati in DBFS sono disponibili in Azure Databricks

Nota

La disponibilità e la posizione dei set di dati di Databricks sono soggetti a modifiche senza preavviso.

Esplorare i set di dati di Databricks montati in DBFS

Per esplorare questi file da un notebook Python, Scala o R, è possibile usare le utilità di Databricks (dbutils). Il codice seguente elenca tutti i set di dati di Databricks disponibili.

Pitone

display(dbutils.fs.ls('/databricks-datasets'))

Linguaggio di programmazione Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"