Condividi tramite


Pianificazione della capacità per i cluster HDInsight

Prima di distribuire un cluster HDInsight, pianificare la capacità del cluster desiderata determinando le prestazioni e la scalabilità necessarie. Questa pianificazione consente di ottimizzare sia l'usabilità che i costi. Alcune decisioni relative alla capacità del cluster non possono essere modificate dopo la distribuzione. Se i parametri delle prestazioni cambiano, un cluster può essere smantellato e ricreato senza perdere i dati archiviati.

Le domande chiave da porre per la pianificazione della capacità sono:

  • In quale area geografica è necessario distribuire il cluster?
  • Quanto spazio di archiviazione è necessario?
  • Quale tipo di cluster è necessario distribuire?
  • Quali dimensioni e tipo di macchina virtuale devono essere usate dai nodi del cluster?
  • Quanti nodi di lavoro devono avere il cluster?

Scegliere un'area di Azure

L'area di Azure determina dove viene fornito fisicamente il cluster. Per ridurre al minimo la latenza di letture e scritture, il cluster deve essere vicino ai dati.

HDInsight è disponibile in molte aree di Azure. Per trovare l'area più vicina, vedere Prodotti disponibili in base all'area.

Scegliere la posizione di archiviazione e le dimensioni

Posizione dell'archiviazione predefinita

L'archiviazione predefinita, ovvero un account di archiviazione di Azure o Azure Data Lake Storage, deve trovarsi nella stessa posizione del cluster. Azure Storage è disponibile in tutte le località. Data Lake Storage è disponibile in alcune aree. Vedere la disponibilità corrente di Data Lake Storage.

Posizione dei dati esistenti

Se si vuole usare un account di archiviazione esistente o Data Lake Storage come risorsa di archiviazione predefinita del cluster, è necessario distribuire il cluster nello stesso percorso.

Dimensioni dello spazio di archiviazione

In un cluster distribuito è possibile collegare altri account di Archiviazione di Azure o accedere ad altri Data Lake Storage. Tutti gli account di archiviazione devono trovarsi nella stessa posizione del cluster. Un Data Lake Storage può trovarsi in una posizione diversa, anche se grandi distanze possono introdurre una certa latenza.

L'archiviazione di Azure presenta alcuni limiti di capacità, mentre Data Lake Storage è quasi illimitato. Un cluster può accedere a una combinazione di account di archiviazione diversi. Gli esempi tipici includono:

  • Quando è probabile che la quantità di dati superi la capacità di archiviazione di un singolo contenitore di archiviazione BLOB.
  • Quando il tasso di accesso al contenitore BLOB potrebbe superare la soglia in cui si attiva la limitazione.
  • Quando si vogliono rendere i dati, è già stato caricato in un contenitore BLOB disponibile per il cluster.
  • Quando si vogliono isolare parti diverse dell'archiviazione per motivi di sicurezza o per semplificare l'amministrazione.

Per prestazioni migliori, usare un solo contenitore per ogni account di archiviazione.

Scegliere un tipo di cluster

Il tipo di cluster determina il carico di lavoro configurato per l'esecuzione del cluster HDInsight. I tipi includono Apache Hadoop, Apache Kafka o Apache Spark. Per una descrizione dettagliata dei tipi di cluster disponibili, vedere Introduzione ad Azure HDInsight. Ogni tipo di cluster ha una topologia di distribuzione specifica che include i requisiti per le dimensioni e il numero di nodi.

Scegliere le dimensioni e il tipo di macchina virtuale

Ogni tipo di cluster ha un set di tipi di nodo e ogni tipo di nodo include opzioni specifiche per le dimensioni e il tipo di macchina virtuale.

Per determinare le dimensioni ottimali del cluster per l'applicazione, è possibile eseguire il benchmark della capacità del cluster e aumentare le dimensioni come indicato. Ad esempio, è possibile usare un carico di lavoro simulato o una query canary. Eseguire i carichi di lavoro simulati in cluster di dimensioni diverse. Aumentare gradualmente le dimensioni fino al raggiungimento delle prestazioni previste. È possibile inserire periodicamente una "query canary" tra le altre query di produzione per indicare se il cluster dispone di risorse sufficienti.

Per altre informazioni su come scegliere la famiglia di macchine virtuali appropriata per il carico di lavoro, vedere Selezione delle dimensioni corrette della macchina virtuale per il cluster.

Scegliere la dimensione del cluster

La scalabilità di un cluster è determinata dalla quantità dei nodi della macchina virtuale. Per tutti i tipi di cluster, sono disponibili tipi di nodo con scalabilità specifica e tipi di nodo che supportano la scalabilità orizzontale. Ad esempio, un cluster può richiedere esattamente tre nodi Apache ZooKeeper o due nodi Head. I nodi di lavoro che eseguono l'elaborazione dei dati in modo distribuito traggono vantaggio da un altro nodo di lavoro.

A seconda del tipo di cluster, l'aumento del numero di nodi di lavoro aggiunge più capacità di calcolo, ad esempio più core. Altri nodi aumentano la memoria totale necessaria per l'intero cluster per supportare l'archiviazione in memoria dei dati elaborati. Come per la scelta delle dimensioni e del tipo di macchina virtuale, la selezione della scalabilità del cluster corretta viene in genere raggiunta empiricamente. Usare carichi di lavoro simulati o query canary.

È possibile scalare il cluster per soddisfare le richieste di carico di picco. Ridurre quindi il numero di nodi quando tali nodi aggiuntivi non sono più necessari. La funzionalità di scalabilità automatica consente di ridimensionare automaticamente il cluster in base a metriche e tempistiche predeterminate. Per altre informazioni sul ridimensionamento manuale dei cluster, vedere Ridimensionare i cluster HDInsight.

Ciclo di vita del cluster

Vengono addebitati i costi per la durata di un cluster. Se hai bisogno del tuo cluster solo in momenti specifici, crea cluster su richiesta usando Azure Data Factory. È anche possibile creare script di PowerShell per effettuare il provisioning ed eliminare il cluster e quindi pianificare tali script usando Automazione di Azure.

Annotazioni

Quando un cluster viene eliminato, viene eliminato anche il metastore Hive predefinito. Per rendere persistente il metastore per la nuova creazione del cluster, usare un archivio metadati esterno, ad esempio Database di Azure o Apache Oozie.

Isolare gli errori del lavoro del cluster

A volte possono verificarsi errori a causa dell'esecuzione parallela di più mappe e di componenti di riduzione in un cluster multinodo. Per isolare il problema, provare a eseguire test distribuiti. Esegui più processi simultanei su un cluster di nodi di lavoro. Espandere quindi questo approccio per eseguire più processi contemporaneamente nei cluster contenenti più nodi. Per creare un cluster HDInsight a nodo singolo in Azure, usare l'opzione Custom(size, settings, apps) e usare il valore 1 per Numero di nodi di lavoro nella sezione Dimensioni cluster durante il provisioning di un nuovo cluster nel portale.

Visualizzare la gestione delle quote per HDInsight

Visualizzare un livello granulare e una categorizzazione della quota a livello di famiglia di macchine virtuali. Visualizzare la quota corrente e la quota rimanente per un'area a livello di famiglia di macchine virtuali.

Annotazioni

Questa funzionalità è attualmente disponibile in HDInsight 4.x e 5.x per l'area Stati Uniti orientali (EUAP). Altre aree da seguire successivamente.

  1. Visualizzare la quota corrente:

    Controllare la quota corrente e quella rimanente per una regione a livello di famiglia di VM.

    1. Nella barra di ricerca superiore del portale di Azure cercare e selezionare Quote.

    2. Nella pagina Quota selezionare Azure HDInsight

      Screenshot che mostra come cercare le quote.

    3. Nella casella a discesa selezionare la sottoscrizione e l'area geografica

      Screenshot che mostra come selezionare il cluster e l'area per l'allocazione delle quote.

      Screenshot che mostra come visualizzare e gestire la quota.

  2. Richiedere nuove quote per famiglia di macchine virtuali e area

    1. Fare clic sulla riga per cui si desidera visualizzare i dettagli della quota.

    Screenshot che mostra i dettagli della quota.

Quotas

Per altre informazioni sulla gestione delle quote delle sottoscrizioni, vedere Richiesta di aumenti di quota.

Passaggi successivi