Qu’est-ce que Lakeflow Connect ?

Lakeflow Connect offre des connecteurs simples et efficaces pour ingérer des données à partir de fichiers locaux, d’applications d’entreprise populaires, de bases de données, de stockage cloud, de bus de messages, etc. Cette page présente certaines des façons dont Lakeflow Connect peut améliorer les performances ETL. Il couvre également les cas d’usage courants et la gamme d’outils d’ingestion pris en charge, des connecteurs entièrement managés aux infrastructures entièrement personnalisables.

Modèles de service flexibles

Lakeflow Connect offre un large éventail de connecteurs pour les applications d’entreprise, le stockage cloud, les bases de données, les bus de messages, etc. Il vous offre également la possibilité de choisir entre les éléments suivants :

Choix Descriptif
Un service entièrement managé Connecteurs prêts à l'emploi qui démocratisent l'accès aux données avec des interfaces utilisateur simples et des API puissantes. Cela vous permet de créer rapidement des pipelines d’ingestion robustes tout en réduisant les coûts de maintenance à long terme.
Un pipeline personnalisé Si vous avez besoin d’une personnalisation supplémentaire, vous pouvez utiliser des pipelines déclaratifs Spark Lakeflow ou une diffusion en continu structurée. En fin de compte, cette polyvalence permet à Lakeflow Connect de répondre aux besoins spécifiques de votre organisation.

Unification avec les outils Databricks de base

Lakeflow Connect utilise des fonctionnalités Databricks principales pour fournir une gestion complète des données. Par exemple, il offre une gouvernance à l’aide d’Unity Catalog, de l’orchestration à l’aide de Jobs Lakeflow et de la supervision holistique de vos pipelines. Cela permet à votre organisation de gérer la sécurité, la qualité et le coût des données tout en unifiant vos processus d’ingestion avec vos autres outils d’ingénierie des données. Lakeflow Connect repose sur une plateforme d’intelligence des données ouverte, avec une flexibilité totale pour incorporer vos outils tiers préférés. Cela garantit une solution personnalisée qui s’aligne sur votre infrastructure existante et les stratégies de données futures.

Une ingestion rapide et évolutive

Lakeflow Connect utilise des lectures et des écritures incrémentielles pour permettre une ingestion efficace. En cas de combinaison avec des transformations incrémentielles en aval, cela peut améliorer considérablement les performances ETL.

Cas d’utilisation courants

Les clients ingèrent des données pour résoudre les problèmes les plus difficiles de leurs organisations. Voici quelques exemples de cas d’usage :

Cas d’utilisation Descriptif
Client 360 Mesurer la performance des campagnes et l'évaluation des prospects
Gestion de portefeuille Optimisation du retour sur investissement avec des modèles historiques et de prévision
Analyse des consommateurs Personnaliser les expériences d’achat de vos clients
Ressources humaines centralisées Soutien de la main-d’œuvre de votre organisation
Digital Twins Augmentation de l’efficacité de fabrication
Chatbots RAG Création de chatbots pour aider les utilisateurs à comprendre les stratégies, les produits et bien plus encore

Couches de la pile ETL

Certains connecteurs fonctionnent à un niveau de l'architecture ETL. Par exemple, Databricks offre des connecteurs entièrement managés pour les applications d’entreprise telles que Salesforce et les bases de données comme SQL Server. D’autres connecteurs fonctionnent à une autre couche de la pile ETL. Par exemple, vous pouvez utiliser des connecteurs standard dans les pipelines déclaratifs Spark Lakeflow pour plus d’options de personnalisation. De même, vous pouvez choisir votre niveau de personnalisation de la diffusion de données en continu à partir d’Apache Kafka, d’Amazon Kinesis, de Google Pub/Sub et d’Apache Pulsar.

Databricks recommande de commencer par la couche la plus managée. S’il ne répond pas à vos besoins (par exemple, s’il ne prend pas en charge votre source de données), passez à la couche suivante.

Le tableau suivant décrit les couches de produits d’ingestion :

Couche Descriptif
Pipelines déclaratifs Spark Lakeflow Les pipelines déclaratifs Spark Lakeflow offrent une infrastructure déclarative pour la création de pipelines de données. Définissez vos transformations et les pipelines déclaratifs Spark Lakeflow gèrent l’orchestration, la surveillance, la qualité des données, les erreurs, etc. Il s’appuie sur Structured Streaming pour la diffusion en continu et prend en charge la plupart des fonctionnalités Structured Streaming. Pour toute fonctionnalité Structured Streaming non encore disponible dans les pipelines déclaratifs Spark Lakeflow, vous pouvez utiliser directement des API Structured Streaming.
Connecteurs complètement managés Les connecteurs entièrement gérés s’appuient sur les pipelines déclaratifs de Lakeflow Spark, offrant encore plus d’automatisation pour les sources de données les plus populaires. Ils étendent les fonctionnalités de pipelines déclaratifs Lakeflow Spark pour inclure également l’authentification spécifique à la source, la capture de données modifiées, la gestion des cas de périphérie, la maintenance des API à long terme, les nouvelles tentatives automatisées, l’évolution du schéma automatisé, et ainsi de suite. Par conséquent, ils offrent une automatisation encore plus grande pour toutes les sources de données prises en charge.

Connecteurs managés

Vous pouvez utiliser des connecteurs entièrement managés pour ingérer à partir d’applications et de bases de données d’entreprise. Consultez les connecteurs managés dans Lakeflow Connect pour obtenir la liste complète des connecteurs pris en charge.

Les interfaces prises en charge sont les suivantes :

  • Interface utilisateur Databricks
  • Paquets d'Automatisation déclarative
  • API Databricks
  • Kits SDK Databricks
  • Interface CLI de Databricks

Connecteurs de communauté

Les connecteurs communautaires étendent Lakeflow Connect aux sources sans prise en charge de connecteurs gérés. Ils sont créés et gérés par la communauté et ne sont pas soutenus par les contrats SLA Databricks. Vous pouvez utiliser un connecteur existant ou créer votre propre connecteur. Consultez les connecteurs communautaires dans Lakeflow Connect.

Connecteurs standard

Outre les connecteurs managés, Databricks offre des connecteurs personnalisables pour le stockage d’objets cloud et les bus de messages. Consultez les connecteurs Standard dans Lakeflow Connect.

Créer ou modifier une table à partir du chargement de fichiers (Ajouter une interface utilisateur de données)

Vous pouvez ingérer des fichiers qui résident sur votre réseau local, les fichiers chargés sur un volume ou les fichiers téléchargés à partir d’un emplacement Internet. Consultez Créer ou modifier une table à l’aide du chargement de fichiers.

Partenaires d'ingestion

De nombreux outils tiers prennent en charge l’ingestion par lots ou en streaming dans Databricks. Databricks valide diverses intégrations tierces, bien que les étapes de configuration de l'accès aux systèmes sources et d'ingestion de données varient selon l'outil. Consultez les partenaires d'ingestion pour obtenir une liste des outils validés. Certains partenaires technologiques sont également proposés dans Databricks Partner Connect, qui a une interface utilisateur qui simplifie la connexion d’outils tiers aux données Lakehouse.

Consommation DIY

Databricks fournit une plate-forme de calcul générale. Par conséquent, vous pouvez créer vos propres connecteurs d’ingestion en utilisant n’importe quel langage de programmation pris en charge par Databricks, comme Python ou Java. Vous pouvez également importer et utiliser des bibliothèques de connecteurs open source populaires telles que l’outil de chargement de données, Airbyte et Debezium.

Alternatives à l'ingestion

Databricks recommande l'ingestion pour la plupart des cas d'utilisation, car elle s'adapte aux volumes de données élevés, aux requêtes à faible latence et aux limites des API tierces. L’ingestion copie les données de vos systèmes sources vers Azure Databricks, ce qui génère des données en double qui peuvent devenir obsolètes au fil du temps. Si vous ne souhaitez pas copier de données, vous pouvez utiliser les outils suivants :

Outil Descriptif
Fédération de Lakehouse Vous permet d’interroger des sources de données externes sans déplacer vos données.
Partage Delta Vous permet de partager en toute sécurité des données entre plateformes, clouds et régions.