Abfragebeschleunigung für OneLake-Tastenkombinationen – Übersicht

OneLake-Verknüpfungen sind Referenzen aus einem Eventhouse, die auf interne Fabric-Ressourcen oder externe Quellen verweisen. Auf diese Art von Verknüpfung wird später in KQL-Abfragesets mithilfe der external_table()-Funktion zugegriffen. Abfragen, die über OneLake-Verknüpfungen ausgeführt werden, können weniger effizient sein als bei Daten, die direkt in Eventhouses erfasst werden, aufgrund verschiedener Faktoren wie Netzwerkaufrufe zum Abrufen von Daten aus dem Speicher, das Fehlen von Indizes und mehr.

Die Abfragebeschleunigung ermöglicht das Angeben einer Richtlinie über externe Delta-Tabellen (ein Speicherformat, das Änderungen an Daten im Laufe der Zeit nachverfolgt), die die Anzahl der Tage definiert, um Daten für Hochleistungsabfragen zwischenzuspeichern.

Die Abfragebeschleunigung wird in Eventhouse über Delta-Tabellen aus OneLake-Verknüpfungen, Azure Data Lake Store Gen1, Amazon S3, Google Cloud Services, externe Tabellen für Azure Blob-Speicher, und alle von OneLake-Verknüpfungen unterstützte Ziele unterstützt.

Hinweis

  • Wenn Sie aus Compliance-Gründen Daten in einer bestimmten Region speichern müssen, stellen Sie sicher, dass sich Ihre Eventhouse-Kapazität in derselben Region befindet wie Ihre externen Tabellen- oder Verknüpfungsdaten.

  • Beschleunigte externe Tabellen tragen zu den Speicher-COGS und dem SSD-Speicherverbrauch Ihres Eventhouse bei, genauso wie normale Tabellen in Ihrer KQL-Datenbank. Sie können die zwischengespeicherte Datenmenge steuern, indem Sie die Eigenschaft Hot in der Abfragebeschleunigungsrichtlinie definieren. Die Indizierungs- und Erfassungsaktivität trägt auch zur Nutzung von Rechenressourcen bei.

Wann sollte ich die Abfragebeschleunigung für OneLake-Verknüpfungen verwenden?

Bei der Abfragebeschleunigung werden Daten zwischengespeichert, da sie in OneLake landen, wodurch die Leistung mit dem Erfassen von Daten in Eventhouse vergleichbar ist. Durch die Verwendung dieses Features können Sie die Datenlandung in OneLake beschleunigen, einschließlich vorhandener Daten und neuer Updates, und eine ähnliche Leistung erwarten. Dadurch entfällt die Notwendigkeit, Aufnahmepipelines zu verwalten, doppelte Kopien von Daten beizubehalten und gleichzeitig sicherzustellen, dass Daten ohne zusätzlichen Aufwand synchronisiert bleiben.

Die folgenden Szenarien eignen sich ideal für die Nutzung der Abfragebeschleunigung über OneLake-Verknüpfungen:

  • Abfragen von Daten in OneLake mit hoher Leistung: Wenn Sie über vorhandene Workloads verfügen, die Daten hochladen und im Speicher verwalten (optional in einer anderen Cloud oder Region), und Sie möchten einige oder alle Daten mit hoher Leistung abfragen.
  • Kombinieren von historischen Daten mit Echtzeitdatenströmen: Wenn Sie die Datenlandung in OneLake nahtlos mit Echtzeitdatenströmen kombinieren möchten, die in Eventhouse eingehen, ohne die Abfragegeschwindigkeiten zu beeinträchtigen.
  • Nutzen von Dimensionsdaten, die von anderen Elementen verwaltet werden: Häufig werden hochwertige und geringvolumige Daten in SQL-Servern, Cosmos DB, Snowflake oder anderen Systemen bereitgestellt, die sich in OneLake spiegeln lassen. Beschleunigte OneLake-Verknüpfungen können diese Daten für Verknüpfungen und Anreicherungen in der Eventhouse-Abfrage leicht konsumierbar machen. Da Dimensionsdaten häufig wesentlich kleiner sind als Aktivitätsdaten, sind die zusätzlichen Kosten, die diesem Verbrauch zugeordnet sind, in der Regel minimal.

Verhalten von beschleunigten externen Delta-Tabellen

Die beschleunigten OneLake-Verknüpfungen verhalten sich wie externe Tabellen mit den gleichen Einschränkungen und Funktionen. Insbesondere werden Features wie materialisierte Ansichts- und Aktualisierungsrichtlinien nicht unterstützt.

Überwachen des Beschleunigungsverhaltens

Der anfängliche Prozess der Abfragebeschleunigung hängt von der Größe der externen Tabelle ab. Um den Fortschritt und die Einstellungen einer beschleunigten Tabelle zu überwachen, verwenden Sie den Befehl .show external table operations query_acceleration statistics in einem KQL-Abfrageset.

Begrenzungen

  • Die Anzahl der Spalten in der externen Tabelle darf 900 nicht überschreiten.
  • Die Abfrageleistung gegenüber beschleunigten externen Delta-Tabellen mit mehr als 2,5 Millionen Datendateien ist möglicherweise nicht optimal.
  • Das Feature setzt Delta-Tabellen mit statischen erweiterten Features voraus, z. B. ändert sich die Spaltenzuordnung nicht, Partitionen ändern sich nicht usw. Um erweiterte Features zu ändern, deaktivieren Sie zuerst die Richtlinie. Sobald die Änderung vorgenommen wurde, aktivieren Sie die Richtlinie erneut.
  • Schemaänderungen in der Delta-Tabelle müssen auch mit dem jeweiligen .alter externen Delta-Tabellenschemas befolgt werden, was dazu führen kann, dass die Beschleunigung bei einer Schemaänderung von Grund auf neu beginnt.
  • Indexbasiertes Pruning wird für Partitionen nicht unterstützt.
  • Parquet-Dateien mit einer komprimierten Größe von mehr als 6 GB werden nicht zwischengespeichert.

Abrechnung

Beschleunigte Daten werden über den OneLake Premium-Cachezähler in Rechnung gestellt, ähnlich wie native Eventhouse-Tabellen. Sie können die Datenmenge steuern, die beschleunigt wird, indem Sie die Anzahl von Tagen für den Cache konfigurieren. Die Indizierungsaktivität kann auch auf den CU-Verbrauch angerechnet werden. Weitere Informationen finden Sie unter Speicherabrechnung.

Gebühren im Zusammenhang mit der Abfragebeschleunigung werden in der app Fabric metrics unter dem Eventhouse angezeigt, in dem die beschleunigte Verknüpfung erstellt wird.