Condividi tramite


Informazioni su Apache Spark per sviluppatori U-SQL

Importante

Azure Data Lake Analytics è stato ritirato il 29 febbraio 2024. Per altre informazioni , vedere questo annuncio.

Per l'analisi dei dati, l'organizzazione può usare Azure Synapse Analytics o Microsoft Fabric.

Microsoft supporta diversi servizi di analisi, ad esempio Azure Databricks, Azure HDInsight e Azure Data Lake Analytics. Gli sviluppatori hanno una chiara preferenza per le soluzioni open source durante la creazione di pipeline di analisi. Per aiutare gli sviluppatori U-SQL a comprendere Apache Spark e come trasformare gli script U-SQL in Apache Spark, sono state create queste linee guida.

Include i passaggi che è possibile eseguire e diverse alternative.

Passaggi per trasformare U-SQL in Apache Spark

  1. Trasforma le pipeline di orchestrazione del lavoro.

    Se si usa Azure Data Factory per orchestrare gli script di Azure Data Lake Analytics, è necessario modificarli per orchestrare i nuovi programmi Spark.

  2. Comprendere le differenze tra il modo in cui U-SQL e Spark gestiscono i dati.

    Per spostare i dati da Azure Data Lake Storage Gen1 ad Azure Data Lake Storage Gen2, è necessario copiare sia i dati di file che i dati gestiti dal catalogo. Azure Data Lake Analytics supporta solo Azure Data Lake Storage Gen1. Per altre informazioni, vedere Informazioni sui formati di dati Spark.

  3. Trasformare gli script U-SQL in Spark.

    Prima di trasformare gli script U-SQL, è necessario scegliere un servizio di analisi. Alcuni dei servizi di calcolo disponibili sono:

    • Flusso di dati di Azure Data Factory I flussi di dati di mapping sono trasformazioni dei dati progettate visivamente che consentono ai data engineer di sviluppare una logica di trasformazione dei dati grafica senza scrivere codice. Sebbene non sia adatto per eseguire codice utente complesso, può rappresentare facilmente trasformazioni tradizionali dei flussi di dati simili a SQL
    • Hive di Azure HDInsight Apache Hive in HDInsight è adatto alle operazioni ETL (Extract, Transform e Load). Ciò significa che si intende tradurre gli script U-SQL in Apache Hive.
    • Motori Apache Spark, come Azure HDInsight Spark o Azure Databricks, il che significa che dovrai convertire i tuoi script U-SQL in Spark. Per altre informazioni, vedere Informazioni sui formati di dati Spark

Attenzione

Sia Azure Databricks che Azure HDInsight Spark sono servizi cluster e non processi serverless come Azure Data Lake Analytics. È necessario considerare come effettuare il provisioning dei cluster per ottenere il rapporto di costo/prestazioni appropriato e come gestire il loro ciclo di vita per ridurre al minimo i costi. Questi servizi hanno caratteristiche di prestazioni diverse con il codice utente scritto in .NET, quindi sarà necessario scrivere wrapper o riscrivere il codice in un linguaggio supportato. Per altre informazioni, vedere Informazioni sui formati di dati Spark, Informazioni sui concetti relativi al codice Apache Spark per sviluppatori U-SQL, .NET per Apache Spark

Passaggi successivi