Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Esistono diversi set di dati di esempio forniti da Azure Databricks e resi disponibili da terze parti che è possibile usare nell'area di lavoro di Azure Databricks.
Set di dati del catalogo Unity
Unity Catalog consente l'accesso a un certo numero di set di dati di esempio nel samples catalogo. È possibile esaminare questi set di dati nell'interfaccia utente di Esplora cataloghi e farvi riferimento direttamente in un notebook o nell'editor SQL usando il <catalog-name>.<schema-name>.<table-name> modello .
Nella tabella seguente sono elencati gli schemi disponibili nel samples catalogo:
| Dataset | Descrizione |
|---|---|
nyctaxi |
Dati delle corse dei taxi per New York City. |
tpch |
Set di dati su larga scala (circa 1 TB) dal benchmarkTPC-H. |
tpcds_sf1 |
Set di dati su scala ridotta (circa 1 GB) dal benchmark TPC-DS. |
wanderbricks |
Piattaforma simulata di prenotazione viaggi con utenti, proprietà, prenotazioni, recensioni e altro ancora. |
nyctaxi
Lo nyctaxi schema contiene la tabella trips, che contiene informazioni dettagliate sulle corse in taxi a New York City. Nell'esempio seguente vengono restituiti i primi 10 record in questa tabella:
SQL
SELECT * FROM samples.nyctaxi.trips LIMIT 10
Pitone
display(spark.read.table("samples.nyctaxi.trips").limit(10))
tpch
Lo tpch schema contiene i dati del TPC-H Benchmark. Per elencare le tabelle in questo schema, eseguire:
SQL
SHOW TABLES IN samples.tpch
Pitone
display(spark.sql("SHOW TABLES IN samples.tpch"))
tpcds_sf1
Lo tpcds_sf1 schema contiene i dati del benchmarkTPC-DS. Per elencare le tabelle in questo schema, eseguire:
SQL
SHOW TABLES IN samples.tpcds_sf1;
Pitone
display(spark.sql("SHOW TABLES IN samples.tpcds_sf1"))
Per altre indicazioni su come usare questo set di dati per valutare le prestazioni del sistema, vedere Usare il set di dati di esempio TPC-DS per valutare le prestazioni del sistema.
wanderbricks
Lo wanderbricks schema contiene un set di dati simulato della piattaforma di prenotazione viaggi. Per informazioni dettagliate sulle tabelle del wanderbricks set di dati, vedere Set di dati Wanderbricks.
Set di dati di esempio di terze parti in formato CSV
Azure Databricks include strumenti predefiniti per caricare rapidamente set di dati di esempio di terze parti come file con valori delimitati da virgole (CSV) nelle aree di lavoro di Azure Databricks. Alcuni set di dati di esempio di terze parti più diffusi disponibili in formato CSV:
| Set di dati di esempio | Per scaricare il set di dati di esempio come file CSV... |
|---|---|
| Il censimento dello scoiattolo |
Nella pagina Web Dati fare clic su Park Data (Park Data), Squirrel Data o storie. |
| Raccolta di set di dati OWID | Nel repository GitHub fare clic sulla cartella set di dati. Fare clic sulla sottocartella contenente il set di dati di destinazione e quindi sul file CSV del set di dati. |
| Data.gov set di dati CSV | Nella pagina Web dei risultati della ricerca fare clic sul risultato della ricerca di destinazione e accanto all'icona CSV fare clic su Scarica. |
| Diamanti (richiede un account Kaggle) | Nella scheda Dati della pagina Web del set di dati, accanto a diamonds.csv, fare clic sull'icona Scarica nella scheda Dati. |
| Durata del viaggio in taxi di New York (richiede un account Kaggle) | Nella pagina Web del set di dati, nella scheda Dati , accanto a sample_submission.zip, fare clic su Icona di download . Per trovare i file CSV del set di dati, estrae il contenuto del file ZIP scaricato. |
Per usare set di dati di esempio di terze parti nell'area di lavoro di Azure Databricks, eseguire le operazioni seguenti:
- Seguire le istruzioni di terze parti per scaricare il set di dati come file CSV nel computer locale.
- Caricare il file CSV dal computer locale nell'area di lavoro di Azure Databricks.
- Per usare i dati importati, usare Databricks SQL per eseguire query sui dati. In alternativa, è possibile usare un notebook per caricare i dati come dataframe.
Set di dati di esempio da terze parti nelle librerie
Alcune terze parti includono set di dati di esempio all'interno di librerie, ad esempio pacchetti Python Package Index (PyPI) o pacchetti CRAN (Comprehensive R Archive Network). Per altre informazioni, vedere la documentazione del provider di librerie.
- Per installare una libreria in un cluster Azure Databricks usando l'interfaccia utente del cluster, vedere Librerie con ambito di calcolo.
- Per installare una libreria Python utilizzando un notebook di Azure Databricks, vedere le librerie Python con ambito notebook.
- Per installare una libreria R utilizzando il notebook di Azure Databricks, vedere Librerie R con ambito del notebook.
Set di dati di Databricks (databricks-datasets) montati in DBFS
Azure Databricks sconsiglia l'uso di DBFS e l'archiviazione di oggetti cloud montati per la maggior parte dei casi d'uso nelle aree di lavoro di Databricks abilitate per Unity Catalog. Alcuni set di dati di esempio montati in DBFS sono disponibili in Azure Databricks
Nota
La disponibilità e la posizione dei set di dati di Databricks sono soggetti a modifiche senza preavviso.
Esplorare i set di dati di Databricks montati in DBFS
Per esplorare questi file da un notebook Python, Scala o R, è possibile usare le utilità di Databricks (dbutils). Il codice seguente elenca tutti i set di dati di Databricks disponibili.
Pitone
display(dbutils.fs.ls('/databricks-datasets'))
Linguaggio di programmazione Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"