Limitazioni del connettore Confluence

Questa pagina elenca limitazioni e considerazioni per l'inserimento di dati da Confluence tramite Databricks Lakeflow Connect.

Limitazioni generali del connettore SaaS

Le limitazioni in questa sezione si applicano a tutti i connettori SaaS in Lakeflow Connect.

  • Durante l'esecuzione di una pipeline pianificata, gli avvisi non vengono attivati immediatamente. Attivano invece quando viene eseguito l'aggiornamento successivo.
  • Quando viene eliminata una tabella di origine, la tabella di destinazione non viene eliminata automaticamente. È necessario eliminare manualmente la tabella di destinazione. Questo comportamento non è coerente con il comportamento dichiarativo di Lakeflow Spark Pipelines.
  • Durante i periodi di manutenzione di origine, Databricks potrebbe non essere in grado di accedere ai dati.
  • Se un nome di tabella di origine è in conflitto con un nome di tabella di destinazione esistente, l'aggiornamento della pipeline non riesce.
  • Il supporto per pipeline a più destinazioni è solo tramite API.
  • Puoi opzionalmente rinominare una tabella che ingerisci. Se rinomini una tabella nel tuo pipeline, diventa un pipeline esclusivamente API e non puoi più modificare il pipeline nell'interfaccia utente.
  • La selezione e deselezione a livello di colonna sono disponibili solo tramite API.
  • Se selezioni una colonna dopo che una pipeline è già iniziata, il connettore non ricarica automaticamente i dati per la nuova colonna. Per inserire dati cronologici, eseguire manualmente un aggiornamento completo nella tabella.
  • Databricks non può inserire due o più tabelle con lo stesso nome nella stessa pipeline, anche se provengono da schemi di origine diversi.
  • Il sistema di origine presuppone che le colonne del cursore aumentino in modo monotonico.
  • Il connettore inserisce dati non elaborati senza trasformazioni. Usare le pipeline dichiarative di Lakeflow Spark per le trasformazioni downstream.

Limitazioni specifiche del connettore

Le limitazioni in questa sezione sono specifiche del connettore Confluence.

Dati supportati

Il connettore inserisce solo le tabelle seguenti da Confluence:

  • pages
  • spaces
  • labels
  • classification_levels
  • blogposts
  • attachments

Modalità di distribuzione

Il connettore supporta solo Confluence Cloud.

Inserimento ACL

Il connettore attualmente non supporta l'inserimento di ACL di Confluence. Analogamente, il connettore non attiva la reingestione quando cambiano gli ACL dell'origine dati.

Inserimento di contenuti

  • I file allegati non vengono inseriti. Solo i metadati degli allegati (nome file, dimensioni, tipo di contenuto, data di caricamento) sono inclusi nei dati inseriti.
  • I commenti di pagina non vengono inseriti. Sono inclusi solo il contenuto e i metadati della pagina.
  • Gli spazi archiviati non vengono inseriti. Nella pipeline di inserimento sono inclusi solo gli spazi attivi.

Limiti di frequenza API

  • Il connettore è soggetto ai limiti di frequenza dell'API Confluence. Quando si superano i limiti di velocità, la pipeline potrebbe rallentare o fallire temporaneamente. Il connettore esegue automaticamente nuovi tentativi con backoff esponenziale.
  • Databricks consiglia di pianificare le esecuzioni della pipeline durante le ore di minore attività per ridurre al minimo l'impatto dei limiti di frequenza.

Authentication

Considerazioni sulle prestazioni

  • Le esecuzioni iniziali della pipeline (snapshot completi) potrebbero richiedere più tempo per le istanze di Confluence di grandi dimensioni con molte pagine.
  • Le prestazioni di inserimento incrementali dipendono dal numero di pagine modificate dall'ultima esecuzione.
  • L'inserimento di pagine di grandi dimensioni con contenuto esteso o molti allegati potrebbe richiedere più tempo.

Le limitazioni seguenti sono relative alle modifiche non riflesse nel cursore:

  • Per le tabelle inserite in modo incrementale, il connettore supporta le cancellazioni logiche (ad esempio, per i record spostati nel cestino in Confluence). Tuttavia, non supporta le eliminazioni hard (ad esempio, i record "ripuliti" in Confluence). Per riflettere le eliminazioni permanenti, è necessario eseguire un aggiornamento completo della pipeline.

    Quando viene eliminato uno spazio, tutte le pagine e gli allegati vengono eliminati definitivamente. Pertanto, queste eliminazioni non vengono riflesse nelle tabelle di destinazione. Tuttavia, quando una pagina principale viene eliminata temporaneamente, tutte le sue sotto-pagine e gli allegati vengono eliminati dalle tabelle di destinazione.

  • Il contenuto archiviato per le tabelle incrementali non è supportato.

  • Quando una pagina o un post di blog viene spostata da uno spazio a un altro o da un elemento padre a un altro, il corrispondente spaceId non viene aggiornato.

  • Record ripristinati: se si ripristina una pagina o un post di blog dopo l'eliminazione nell'origine, il connettore non lo reintegra.