Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
si applica a:✅ Magazzino di dati in Microsoft Fabric
In Microsoft Fabric, un warehouse mantiene e mantiene automaticamente diverse versioni dei dati in base al periodo di conservazione configurato. Questo periodo di conservazione determina l'intervallo di tempo in cui è possibile eseguire query di viaggio nel tempo , creare cloni di tabelle, usare punti di ripristino e creare snapshot del warehouse.
La conservazione dei dati viene avviata automaticamente quando si crea il warehouse. Per impostazione predefinita, i warehouse mantengono la cronologia dei dati per 30 giorni di calendario. È possibile configurare il periodo di conservazione su qualsiasi valore compreso tra 1 e 120 giorni. Il sistema elimina automaticamente i file scaduti al termine del periodo di conservazione.
Il magazzino mantiene tutti gli inserimenti, gli aggiornamenti e le eliminazioni entro il periodo di conservazione configurato.
- Prolungare la durata del periodo di conservazione offre un intervallo più lungo per le query di viaggio nel tempo, i cloni di tabelle in un punto temporale passato, i punti di ripristino e gli snapshot del magazzino. Tuttavia, un periodo di conservazione più lungo aumenta il consumo di archiviazione e i costi associati.
- La riduzione del periodo di conservazione riduce i costi di archiviazione, ma limita quanto tempo è possibile eseguire query o recuperare i dati cronologici.
Funzionamento della conservazione dei dati
Quando i dati vengono modificati, il warehouse non elimina immediatamente lo stato della versione precedente. Le versioni precedenti dei dati vengono invece mantenute come parte del log delle transazioni Delta Lake. Questo meccanismo di controllo delle versioni è ciò che consente il funzionamento dei viaggi nel tempo, dei cloni di tabelle, dei punti di ripristino e degli snapshot del magazzino.
Quando le versioni dei dati cronologici superano il periodo di conservazione configurato, un processo di Garbage Collection in background rimuove automaticamente i file scaduti da OneLake. Questo processo di pulizia viene eseguito in modo asincrono e non influisce sulle query attive o sulle transazioni in corso.
Il data warehouse misura l'età dei dati conservati in giorni di calendario assoluti dal momento in cui è stata creata la versione dei dati, inclusa ogni volta che la capacità Microsoft Fabric viene sospesa.
Intervallo di periodi di conservazione
Se non si configura in modo esplicito il periodo di conservazione, i warehouse esistenti usano il periodo di conservazione predefinito di 30 giorni di calendario. È possibile configurare il periodo di conservazione dei dati da 1 a 120 giorni.
Configurare la conservazione dei dati
Impostare il periodo di conservazione dei dati per un warehouse usando ALTER DATABASE ... Comando SET T-SQL. Per i passaggi e altre informazioni, vedere Come configurare la conservazione dei dati in Fabric Data Warehouse.
Comportamento durante la modifica del periodo di conservazione
Comprendere il comportamento quando si modifica il periodo di conservazione consente di pianificare le modifiche per evitare perdite di dati impreviste o aumenti delle dimensioni di archiviazione.
Aumento del periodo di conservazione
Quando si aumenta il periodo di conservazione, la nuova impostazione diventa effettiva immediatamente. Tuttavia, non è possibile recuperare i dati cronologici già puliti dal sistema nel periodo di conservazione più breve precedente. Solo le versioni di dati ancora presenti in OneLake al momento della modifica traggono vantaggio dal periodo di conservazione esteso.
Ad esempio, se il magazzino ha attualmente un periodo di conservazione di 7 giorni e lo si aumenta a 60 giorni, la modifica si applica da quel punto in poi. Non è possibile recuperare le versioni dei dati già ripulite dal sistema prima della modifica (precedenti a 7 giorni). Tuttavia, tutte le versioni dei dati ancora entro la finestra di 7 giorni al momento della modifica, insieme a eventuali nuove versioni create in futuro, verranno mantenute per un massimo di 60 giorni.
Riduzione del periodo di conservazione
Quando si riduce il periodo di conservazione, le versioni dei dati che ora non rientrano nel nuovo periodo di conservazione più breve diventano idonee per la pulizia. Il processo di pulizia viene eseguito in modo asincrono in background e non avviene istantaneamente. Le query già in corso non sono affette.
Ad esempio, se il magazzino ha un periodo di conservazione di 30 giorni e lo si riduce a 7 giorni, le versioni dei dati comprese tra 8 e 30 giorni diventano idonee per una pulizia automatica.
Importante
La riduzione del periodo di conservazione è irreversibile, dal punto di vista dell'accesso ai dati.
Anche se si aumenta di nuovo il periodo di conservazione poco dopo, non è più possibile accedere ai dati che si sono verificati all'esterno dell'intervallo più breve durante tale periodo. Prima di ridurre il periodo di conservazione, assicurarsi che il nuovo periodo di conservazione soddisfi i requisiti di ripristino e conformità dei dati dell'organizzazione.
Data di scadenza del periodo di conservazione
La time_travel_retention_cutoff_date colonna nella vista del catalogo di sistema sys.databases riflette la prima data effettiva da cui sono disponibili i dati di spostamento temporale, non il periodo di conservazione attualmente configurato. I dati effettivi meno recenti possono essere diversi dal periodo di conservazione configurato.
Il periodo di conservazione configurato dall'utente definisce il numero di giorni di cronologia che il sistema deve mantenere in futuro. Tuttavia, la cronologia recuperabile effettiva dipende dai dati mantenuti prima di eventuali modifiche di conservazione.
Due situazioni causano una divergenza tra la conservazione configurata e la cronologia disponibile effettiva:
- Conservazione ridotta : il magazzino contrassegna immediatamente i dati cronologici precedenti al nuovo periodo di conservazione per la raccolta dei rifiuti e li rimuove definitivamente.
- La conservazione è stata successivamente aumentata : il magazzino non è in grado di ripristinare la cronologia eliminata. Deve attendere che la nuova cronologia venga accumulata prima che sia disponibile la finestra configurata completa.
Scenari di conservazione dei dati
Quando si decide come configurare il periodo di conservazione, prendere in considerazione gli scenari seguenti:
Controllo e conformità
Le organizzazioni con requisiti normativi o di conformità potrebbero dover conservare i dati per periodi più lunghi per soddisfare gli obblighi di controllo. La configurazione di un periodo di conservazione di 90 o 120 giorni può offrire ai revisori una finestra cronologica più ampia per esaminare le modifiche dei dati nel tempo.
Sviluppo e test
Per le aree di lavoro di sviluppo o test in cui i dati cronologici sono meno importanti, un periodo di conservazione più breve di 1-7 giorni può ridurre i costi di archiviazione. Questa riduzione è utile quando l'area di lavoro viene usata per la creazione rapida di prototipi o lo sviluppo iterativo.
Ottimizzazione dei costi
Se il warehouse subisce frequenti modifiche ai dati su larga scala (ad esempio carichi completi giornalieri), il volume dei dati cronologici conservati può aumentare notevolmente. In questi scenari, la riduzione del periodo di conservazione consente di controllare i costi di archiviazione mantenendo comunque una finestra di ripristino ragionevole.
Preparazione al ripristino dei dati
Per i warehouse di produzione, il mantenimento di un periodo di conservazione più lungo offre maggiore flessibilità per il ripristino dei dati tramite punti di ripristino, cloni di tabelle e query di spostamento del tempo in caso di danneggiamento accidentale dei dati.
Impatto della conservazione configurabile sulle funzionalità dipendenti
Il periodo di conservazione configurato si applica in modo uniforme tra le funzionalità seguenti in Fabric Data Warehouse. La modifica del periodo di conservazione influisce direttamente sulla disponibilità e sul comportamento di queste funzionalità.
Spostamento cronologico
Il viaggio nel tempo consente di eseguire query sui dati come esistevano in un momento passato entro il periodo di conservazione. L'hint per la FOR TIMESTAMP AS OF query può recuperare i dati da qualsiasi punto all'interno del periodo di conservazione configurato.
Ad esempio, se il periodo di conservazione è impostato su 15 giorni, è possibile eseguire query sui dati in quanto esistono fino a 15 giorni di calendario nel passato.
Clonare la tabella
I cloni di tabelle si basano sul periodo di conservazione. È possibile creare un clone di una tabella in un momento precedente solo entro il periodo di conservazione configurato. Se si richiede un clone oltre il periodo di conservazione, si verifica un errore.
Punti di ripristino
Usare i punti di ripristino per ripristinare un magazzino. Il sistema mantiene sia i punti di ripristino generati dal sistema che i punti di ripristino definiti dall'utente per il periodo di conservazione configurato. Dopo la scadenza del periodo di conservazione, il sistema elimina automaticamente i punti di ripristino.
- Il magazzino crea automaticamente punti di ripristino generati dal sistema ogni otto ore. Questi punti di ripristino sono disponibili per il periodo di conservazione configurato.
- I punti di ripristino definiti dall'utente sono disponibili per il periodo di conservazione configurato. Il sistema elimina automaticamente questi punti di ripristino dopo la scadenza.
Fabric mantiene un numero minimo di punti di ripristino per garantire che siano sempre disponibili punti di ripristino sufficienti.
Istantanee del magazzino
Gli snapshot del magazzino possono riferirsi ai dati all'interno del periodo di conservazione configurato. Il timestamp dello snapshot può essere impostato su qualsiasi punto all'interno del periodo di conservazione configurato o sull'ora di creazione del database, a condizione che sia successiva.
Fatturazione dello spazio di archiviazione
La conservazione dei dati influisce direttamente sul consumo di archiviazione di OneLake. Ogni versione conservata dei dati occupa spazio di archiviazione e periodi di conservazione più lunghi accumulano più versioni cronologiche.
Durante la pianificazione della configurazione della conservazione, prendere in considerazione il compromesso tra i vantaggi dell'accesso a una cronologia dati più estesa e i costi di archiviazione associati. Per altre informazioni sul monitoraggio dell'archiviazione, vedere Monitorare l'app Capacity Metrics.
- File dati conservati: Le versioni storiche dei dati archiviate come file parquet in OneLake consumano spazio di archiviazione. Il costo di archiviazione è proporzionale al volume e alla frequenza delle modifiche dei dati nel periodo di conservazione.
- Punti di ripristino: i metadati per i punti di ripristino generati dal sistema e definiti dall'utente utilizzano anche l'archiviazione. Tuttavia, i punti di ripristino archiviano principalmente i metadati e fanno riferimento ai file di dati esistenti, quindi il sovraccarico di archiviazione è relativamente ridotto.
- Nessun costo di calcolo per la conservazione: non sono previsti addebiti per il calcolo solo per la conservazione dei dati cronologici. I costi di elaborazione si applicano solo quando si eseguono attivamente query o si ripristinano i dati.
Per stimare l'impatto dell'archiviazione di una modifica del periodo di conservazione, prendere in considerazione:
- Volume medio giornaliero delle modifiche dei dati nel magazzino.
- Periodo di conservazione corrente e nuovo periodo di conservazione proposto.
- Il delta tra i due periodi moltiplicato per il volume di modifica giornaliero medio offre una variazione approssimativa del consumo di archiviazione.
Considerazioni relative alla progettazione
- Configurare il periodo di conservazione in base ai requisiti di ripristino, conformità e costi dei dati dell'organizzazione. Il valore predefinito di 30 giorni offre un equilibrio tra la disponibilità dei dati e i costi di archiviazione per la maggior parte dei carichi di lavoro.
- Coordinare le modifiche del periodo di conservazione con la strategia di backup e ripristino di emergenza. Assicurarsi che il periodo di conservazione sia allineato agli obiettivi del punto di ripristino (RPO).
- Monitorare il consumo di archiviazione di OneLake dopo aver modificato il periodo di conservazione per comprendere l'impatto sui costi di archiviazione.
- Pianificare le modifiche del periodo di conservazione durante i periodi di attività bassa, quando possibile, in modo che non vi sia alcun impatto sull'utente.
- Il periodo di conservazione viene impostato a livello di magazzino. Se sono necessari periodi di conservazione diversi per set di dati diversi, è consigliabile organizzarli in magazzini separati. Le singole impostazioni di conservazione a livello di tabella non sono attualmente supportate.
Limitations
- Specificare il periodo di conservazione in giorni interi. I valori frazionari non sono supportati.
- La riduzione del periodo di conservazione non consente di recuperare immediatamente lo spazio di archiviazione. La pulizia dei dati scaduti viene eseguita in modo asincrono in background.
- La sospensione della capacità Microsoft Fabric influisce sull'attività di pulizia dei rifiuti. Il processo non rimuove i dati cronologici precedenti alle impostazioni di conservazione dei dati correnti mentre la capacità viene sospesa. Le attività di pulizia vengono recuperate una volta ripresa la capacità.
- L'impostazione di conservazione si applica solo ai magazzini. L'endpoint di analisi SQL di Lakehouse non è supportato.
- I log di controllo di Query Insights e SQL non sono soggetti a questi criteri di conservazione dei dati e vengono gestiti separatamente.
Conservazione degli elementi eliminati (anteprima)
La conservazione degli elementi eliminati mantiene i magazzini e le tabelle associate, gli schemi, gli snapshot, le autorizzazioni e le query salvate per un periodo configurabile dopo essere stati sospesi o eliminati. Ciò garantisce che le eliminazioni accidentali non comportino perdite di dati permanenti o interruzioni aziendali. La conservazione annullata garantisce un periodo di conservazione minimo di 7 giorni di calendario e presenta una configurazione distinta a livello di tenant. È possibile configurare il periodo di conservazione degli elementi eliminati nell'impostazione del tenant Ripristino degli elementi.