Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
I collegamenti a OneLake sono riferimenti da una Eventhouse che puntano a sorgenti Fabric interne o esterne. Questo tipo di collegamento viene successivamente acceduto per la query nei set di query KQL usando la external_table() funzione. Le query eseguite su collegamenti rapidi OneLake possono essere meno efficienti rispetto ai dati ingeriti direttamente negli Eventhouses a causa di vari fattori, ad esempio le chiamate di rete per recuperare i dati dall'archiviazione, l'assenza di indici e altro ancora.
L'accelerazione delle query consente di specificare un criterio sulle tabelle delta esterne (un formato di archiviazione che tiene traccia delle modifiche ai dati nel tempo) che definisce il numero di giorni per memorizzare nella cache i dati per le query a prestazioni elevate.
L'accelerazione delle query è supportata in Eventhouse sulle tabelle delta da scorciatoie OneLake, Azure Data Lake Store Gen1, Amazon S3, Google Cloud Services, tabelle esterne di archiviazione BLOB di Azure e tutte le destinazioni supportate da scorciatoie OneLake.
Nota
Se sono presenti considerazioni sulla conformità che richiedono di archiviare i dati in un'area specifica, assicurarsi che la capacità di Eventhouse si trovi nella stessa area della tabella esterna o dei dati di scorciatoia.
Le tabelle esterne accelerate aumentano i costi di archiviazione (COGS) e l'utilizzo dell'archiviazione SSD nel tuo Eventhouse, simili alle normali tabelle nel database KQL. È possibile controllare la quantità di dati da memorizzare nella cache definendo la proprietà Hot nei criteri di accelerazione della query. L'attività di indicizzazione e inserimento contribuisce anche all'uso delle risorse di calcolo.
Quando è consigliabile usare l'accelerazione delle query per le scorciatoie di OneLake?
L'accelerazione delle query memorizza nella cache i dati man mano che arrivano in OneLake, offrendo prestazioni paragonabili all'inserimento di dati in Eventhouse. Usando questa funzionalità, è possibile accelerare l'atterraggio dei dati in OneLake, inclusi i dati esistenti e tutti i nuovi aggiornamenti e prevedere prestazioni simili. In questo modo si elimina la necessità di gestire le pipeline di inserimento, mantenere copie duplicate dei dati, garantendo al tempo stesso che i dati rimangano sincronizzati senza ulteriori sforzi.
Gli scenari seguenti sono ideali per l'uso dell'accelerazione delle query su scorciatoie OneLake:
- Eseguire query sui dati in OneLake con prestazioni elevate: quando si hanno carichi di lavoro esistenti che caricano i dati e lo gestiscono nell'archiviazione (facoltativamente in un cloud o in un'area diversa) e si vogliono eseguire query su alcuni o tutti i dati con prestazioni elevate.
- Combinare dati cronologici con flussi in tempo reale: quando si vuole combinare senza soluzione di continuità l'integrazione dei dati in OneLake direttamente con flussi in tempo reale che vengono integrati in Eventhouse senza compromettere la velocità delle query.
- Utilizzare i dati delle dimensioni gestiti da altri elementi: spesso i dati ad alto valore e di piccolo volume sono ospitati in server SQL, Cosmos DB, Snowflake o altri sistemi che possono essere replicati in OneLake. Le scorciatoie accelerate di OneLake possono rendere questi dati facilmente utilizzabili per le intersezioni e l'arricchimento nella query di Eventhouse. Poiché i dati delle dimensioni sono spesso molto più piccoli rispetto ai dati dell'attività, il costo aggiuntivo associato a tale utilizzo è in genere minimo.
Comportamento delle tabelle delta esterne accelerate
I collegamenti OneLake accelerati si comportano come tabelle esterne, con le stesse limitazioni e funzionalità. In particolare, le funzionalità come la visualizzazione materializzata e i criteri di aggiornamento non sono supportate.
Monitorare il comportamento dell'accelerazione
Il processo iniziale di accelerazione delle query dipende dalle dimensioni della tabella esterna. Per monitorare lo stato di avanzamento e le impostazioni di una tabella accelerata, usare il comando .show external table operations query_acceleration statistics in un set di query KQL.
Limiti
- Il numero di colonne nella tabella esterna non può superare 900.
- Le prestazioni delle query su tabelle delta esterne accelerate con più di 2,5 milioni di file di dati potrebbero non essere ottimali.
- La funzionalità presuppone che le tabelle delta abbiano funzionalità avanzate che sono statiche, ad esempio il mapping delle colonne non cambia, le partizioni non cambiano, e così via. Per modificare le funzionalità avanzate, disabilitare prima di tutto il criterio e, dopo aver apportato la modifica, riabilitare il criterio.
- Le modifiche dello schema nella tabella delta devono essere seguite anche con il rispettivo
.alterschema di tabella delta esterna, il che potrebbe comportare l'inizio dell'accelerazione da zero se si verifica un cambiamento di schema significativo. - L'eliminazione basata su indice non è supportata per le partizioni.
- I file Parquet con dimensioni compresse superiori a 6 GB non verranno memorizzati nella cache.
Fatturazione
I dati accelerati vengono addebitati nel contatore della cache OneLake Premium, in modo analogo alle tabelle native di Eventhouse. È possibile controllare la quantità di dati accelerata configurando il numero di giorni da memorizzare nella cache. L'attività di indicizzazione può anche contribuire al consumo di CU. Per ulteriori informazioni, vedere fatturazione dello storage.
Gli addebiti correlati all'accelerazione delle query verranno visualizzati nell'app Fabric metrics all'interno dell'Eventhouse in cui viene creato lo shortcut accelerato.