Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Hinweis
Dieser Artikel gehört zu der Artikelserie Erfolg der Azure Synapse-Implementierung nach Design. Eine Übersicht über diese Serie finden Sie unter Erfolg der Azure Synapse-Implementierung nach Design.
Der erste Schritt bei der Implementierung von Azure Synapse Analytics besteht darin, eine Bewertung Ihrer Umgebung durchzuführen. Eine Bewertung bietet Ihnen die Möglichkeit, alle verfügbaren Informationen zu Ihrer vorhandenen Umgebung, Umweltanforderungen, Projektanforderungen, Einschränkungen, Zeitachsen und Schmerzpunkten zu sammeln. Diese Informationen bilden die Grundlage für spätere Auswertungen und Prüfpunktaktivitäten. Es wird unschätzbar sein, wenn es an der Zeit ist, die Projektlösung zu validieren und zu vergleichen, nachdem sie geplant, entworfen und entwickelt wurde. Wir empfehlen, dass Sie viel Zeit für die Erfassung aller Informationen aufwenden und sicherstellen, dass Sie über notwendige Diskussionen mit relevanten Gruppen verfügen. Relevante Gruppen können Projektbeteiligte, Geschäftsbenutzer, Lösungsdesigner und Fachexperten (SMEs) der vorhandenen Lösung und Umgebung umfassen.
Die Bewertung wird ein Leitfaden, der Ihnen dabei hilft, das Lösungsdesign zu bewerten und fundierte Technologieempfehlungen zur Implementierung von Azure Synapse zu erstellen.
Workload-Bewertung
Die Workload-Bewertung befasst sich mit der Umgebung, analytischen Workloadrollen, ETL/ELT, Netzwerk und Sicherheit, der Azure-Umgebung und dem Datenverbrauch.
Umgebung
Bewerten Sie für die Umgebung die folgenden Punkte.
- Beschreiben Sie Ihre vorhandene analytische Arbeitsauslastung:
- Was sind die Workloads (z. B. Data Warehouse oder Big Data)?
- Wie hilft diese Arbeitsauslastung dem Unternehmen? Was sind die Anwendungsfallszenarien?
- Was ist der Geschäftstreiber für diese analytische Plattform und für potenzielle Migrationen?
- Sammeln Sie Details zu den vorhandenen Architektur-, Entwurfs- und Implementierungsoptionen.
- Sammeln Sie Details zu allen vorhandenen upstream- und downstream abhängigen Komponenten und Verbrauchern.
- Migrieren Sie ein vorhandenes Data Warehouse (z. B. Microsoft SQL Server, Microsoft Analytics Platform System (APS), Netezza, Snowflake oder Teradata)?
- Migrieren Sie eine Big Data-Plattform (z. B. Cloudera oder Hortonworks)?
- Sammeln Sie die Architektur- und Datenflussdiagramme für die aktuelle analytische Umgebung.
- Wo befinden sich die Datenquellen für Ihre geplanten analytischen Workloads (Azure, andere Cloudanbieter oder lokal)?
- Was ist die Gesamtgröße vorhandener Datasets (historisch und inkrementell)? Was ist die aktuelle Wachstumsrate Ihrer Datasets? Was ist die projizierte Wachstumsrate Ihrer Datasets für die nächsten 2-5 Jahre?
- Haben Sie einen vorhandenen Data Lake? Sammeln Sie so viele Details wie möglich zu Dateitypen (z. B. Parkett oder CSV), Dateigrößen und Sicherheitskonfiguration.
- Haben Sie halbstrukturierte oder unstrukturierte Daten zum Verarbeiten und Analysieren?
- Beschreiben der Art der Datenverarbeitung (Batch- oder Echtzeitverarbeitung).
- Benötigen Sie interaktive Datensuche aus relationalen Daten, Datensee oder anderen Quellen?
- Benötigen Sie Echtzeit-Datenanalysen und -erkundungen aus betrieblichen Datenquellen?
- Was sind die Schmerzpunkte und Einschränkungen in der aktuellen Umgebung?
- Welche Quellcodeverwaltungs- und DevOps-Tools verwenden Sie heute?
- Haben Sie einen Anwendungsfall, um eine hybride (Cloud und lokale) Analyselösung, nur Cloud oder Multi-Cloud zu erstellen?
- Sammeln Sie Informationen zur vorhandenen Cloudumgebung. Handelt es sich um einen Ein-Cloud-Anbieter oder einen Multi-Cloud-Anbieter?
- Sammeln Sie Pläne zur zukünftigen Cloudumgebung. Wird es sich um einen Einzel-Cloud-Anbieter oder einen Multi-Cloud-Anbieter handeln?
- Was sind die RPO/RTO/HA/SLA-Anforderungen in der vorhandenen Umgebung?
- Was sind die RPO/RTO/HA/SLA-Anforderungen in der geplanten Umgebung?
Analytische Workloadrollen
Bewerten Sie für die Rollen für analytische Aufgaben die folgenden Punkte.
- Beschreiben Sie die verschiedenen Rollen (Data Scientist, Data Engineer, Data Analyst und andere).
- Beschreiben Sie die Anforderung der Zugriffssteuerung für die analytische Plattform für diese Rollen.
- Identifizieren Sie den Plattformbesitzer, der für die Bereitstellung von Computeressourcen verantwortlich ist, und gewähren Sie Zugriff.
- Beschreiben, wie unterschiedliche Datenrollen derzeit zusammenarbeiten.
- Gibt es mehrere Teams, die an derselben Analytischen Plattform zusammenarbeiten? Wenn ja, was sind die Zugriffssteuerungs- und Isolationsanforderungen für jedes dieser Teams?
- Welche Clienttools verwenden Endbenutzer für die Interaktion mit der Analytischen Plattform?
ETL/ELT, Transformation und Orchestrierung
Bewerten Sie für ETL/ELT, Transformation und Orchestrierung die folgenden Punkte.
- Welche Tools verwenden Sie heute für die Datenaufnahme (ETL oder ELT)?
- Wo befinden sich diese Tools in der vorhandenen Umgebung (lokal oder in der Cloud)?
- Was sind Ihre aktuellen Datenlade- und Aktualisierungsanforderungen (Echtzeit, Mikrobatch, Stündlich, täglich, wöchentlich oder monatlich)?
- Beschreiben der Transformationsanforderungen für jede Ebene (Big Data, Data Lake, Data Warehouse).
- Was ist der aktuelle Programmieransatz zum Transformieren der Daten (no-code, low-code, Programmierung wie SQL, Python, Scala, C# oder andere)?
- Was ist der bevorzugte geplante Programmieransatz zum Transformieren der Daten (No-Code, Low-Code, Programmierung wie SQL, Python, Scala, C# oder anderes)?
- Welche Tools werden derzeit für die Daten-Orchestrierung zum Automatisieren des datengesteuerten Prozesses verwendet?
- Wo befinden sich die Datenquellen für Ihre vorhandene ETL (Azure, anderer Cloudanbieter oder lokal)?
- Was sind die vorhandenen Datenverbrauchstools (Berichterstellung, BI-Tools, Open-Source-Tools), die eine Integration in die Analytische Plattform erfordern?
- Was sind die geplanten Datenverbrauchstools (Berichterstellung, BI-Tools, Open-Source-Tools), die eine Integration in die Analytische Plattform erfordern?
Netzwerke und Sicherheit
Bewerten Sie für Netzwerk und Sicherheit die folgenden Punkte.
- Welche behördlichen Anforderungen haben Sie für Ihre Daten?
- Wenn Ihre Daten Kundeninhalte, Zahlungskartenindustrie (PCI) oder Health Insurance Portability and Accountability Act von 1996 (HIPAA)-Daten enthalten, hat Ihre Sicherheitsgruppe Azure für diese Daten zertifiziert? Wenn ja, für welche Azure-Dienste?
- Beschreiben Sie Ihre Benutzerautorisierungs- und Authentifizierungsanforderungen.
- Gibt es Sicherheitsprobleme, die den Zugriff auf Daten während der Implementierung einschränken könnten?
- Gibt es Testdaten, die während der Entwicklung und tests verwendet werden können?
- Beschreiben sie die Sicherheitsanforderungen für das Organisationsnetzwerk für die analytische Berechnung und den Speicher (privates Netzwerk, öffentliches Netzwerk oder Firewalleinschränkungen).
- Beschreiben Sie die Anforderungen an die Netzwerksicherheit für Client-Tools, um auf analytisches Rechnen und Speicher zuzugreifen (gekoppeltes Netzwerk, privater Endpunkt oder andere).
- Beschreiben Sie das aktuelle Netzwerksetup zwischen der lokalen Umgebung und Azure (Azure ExpressRoute, Standort-zu-Standort oder andere Verbindungen).
Verwenden Sie die folgenden Checklisten möglicher Anforderungen, um Ihre Bewertung zu leiten.
- Datenschutz:
- Verschlüsselung während der Übertragung
- Verschlüsselung ruhender Schlüssel (Standardschlüssel oder vom Kunden verwaltete Schlüssel)
- Datenerkennung und -klassifizierung
- Zugriffssteuerung:
- Sicherheit auf Objektebene
- Zeilenbasierte Sicherheit
- Sicherheit auf Spaltenebene
- Dynamische Datenmaskierung
- Authentication:
- SQL-Anmeldekonto
- Microsoft Entra ID
- Mehrstufige Authentifizierung (MFA)
- Netzwerksicherheit:
- Virtuelle Netzwerke
- Firewall
- Azure ExpressRoute
- Bedrohungsschutz:
- Bedrohungserkennung
- Auditing
- Sicherheitsrisikobewertung
Weitere Informationen finden Sie im Whitepaper zur Sicherheit von Azure Synapse Analytics.
Azure-Umgebung
Bewerten Sie für die Azure-Umgebung die folgenden Punkte.
- Verwenden Sie derzeit Azure? Wird es für Produktionsbelastungen verwendet?
- Wenn Sie Azure verwenden, welche Dienste verwenden Sie? Welche Regionen verwenden Sie?
- Verwenden Sie Azure ExpressRoute? Was ist seine Bandbreite?
- Verfügen Sie über eine Budgetgenehmigung, um die erforderlichen Azure-Dienste bereitzustellen?
- Wie stellen Sie ressourcen zurzeit bereit und verwalten (Azure Resource Manager (ARM) oder Terraform)?
- Ist Ihr Schlüsselteam mit Synapse Analytics vertraut? Ist eine Schulung erforderlich?
Nutzung der Daten
Bewerten Sie für den Datenverbrauch die folgenden Punkte.
- Beschreiben Sie, wie und welche Tools Sie derzeit zum Ausführen von Aktivitäten wie Erfassung, Durchsuchen, Vorbereiten und Datenvisualisierung verwenden.
- Ermitteln Sie, welche Tools Sie verwenden möchten, um Aktivitäten wie Aufnehmen, Untersuchen, Vorbereiten und die Datenvisualisierung durchzuführen.
- Welche Anwendungen sind für die Interaktion mit der Analytischen Plattform geplant (Microsoft Power BI, Microsoft Excel, Microsoft SQL Server Reporting Services, Tableau oder andere)?
- Identifizieren sie alle Datenkonsumenten.
- Identifizieren der Datenexport- und Datenfreigabeanforderungen.
Azure Synapse-Dienstbewertung
Die Azure Synapse-Dienstbewertung befasst sich mit den Diensten in Azure Synapse. Azure Synapse verfügt über die folgenden Komponenten für die Berechnung und Datenverschiebung:
- Synapse SQL: Ein verteiltes Abfragesystem für Transact-SQL (T-SQL), das Data Warehouse- und Datenvirtualisierungsszenarien ermöglicht. Außerdem wird T-SQL erweitert, um Streaming- und Machine Learning-Szenarien (Machine Learning, ML) zu behandeln. Synapse SQL bietet sowohl serverlose als auch dedizierte Ressourcenmodelle.
- Serverloser SQL-Pool: Ein verteiltes Datenverarbeitungssystem, das für umfangreiche Daten- und Rechenfunktionen entwickelt wurde. Es gibt keine Infrastruktur zum Einrichten oder Verwalten von Clustern. Dieser Dienst eignet sich für ungeplante oder überlastete Workloads. Empfohlene Szenarien umfassen eine schnelle Datensuche auf Dateien direkt auf dem Datensee, logisches Data Warehouse und die Datentransformation von Rohdaten.
- Dedizierter SQL-Pool: Stellt eine Auflistung von Analyseressourcen dar, die bei Verwendung von Synapse SQL bereitgestellt werden. Die Größe eines dedizierten SQL-Pools (vormals SQL DW) wird durch Data Warehouse-Einheiten (Data Warehouse Units, DWUs) bestimmt. Dieser Dienst eignet sich für ein Data Warehouse mit vorhersagbaren, leistungsstarken kontinuierlichen Workloads über in SQL-Tabellen gespeicherte Daten.
- Apache Spark-Pool: Apache Spark ist tief und nahtlos integriert und ist die beliebteste Open Source Big Data-Engine für die Datenaufbereitung, Datenverarbeitung, ETL und maschinelles Lernen.
- Datenintegrationspipelinen: Azure Synapse enthält dasselbe Datenintegrationsmodul und dieselben Erfahrungen wie Azure Data Factory (ADF). Sie ermöglichen es Ihnen, umfangreiche ETL-Pipelines zu erstellen, ohne Azure Synapse zu verlassen.
Um den besten SQL-Pooltyp (dedizierte oder serverlose) zu ermitteln, bewerten Sie die folgenden Punkte.
- Möchten Sie ein herkömmliches relationales Data Warehouse erstellen, indem Sie Die Verarbeitungsleistung für in SQL-Tabellen gespeicherte Daten reservieren?
- Verlangen Ihre Anwendungsfälle eine vorhersehbare Leistung?
- Möchten Sie ein logisches Data Warehouse auf einem Data Lake aufbauen?
- Möchten Sie Daten direkt aus einem Datensee abfragen?
- Möchten Sie Daten aus einem Datensee untersuchen?
In der folgenden Tabelle werden die beiden Synapse SQL-Pooltypen verglichen.
| Vergleich | Dedizierter SQL-Pool | Serverloser SQL-Pool |
|---|---|---|
| Wertversprechen | Vollständig verwaltete Funktionen eines Data Warehouses. Vorhersehbare und hohe Leistung für kontinuierliche Workloads. Optimiert für verwaltete (geladene) Daten. | Einfacher Einstieg und Exploration von Daten aus dem Data Lake. Bessere Gesamtbetriebskosten (TCO) für Ad-hoc- und intermittierende Workloads. Optimiert für das Abfragen von Daten in einem Datensee. |
| Arbeitslasten | Ideal für kontinuierliche Workloads. Das Laden steigert die Leistung, allerdings mit erhöhter Komplexität. Die Abrechnung pro DWU (wenn sie korrekt dimensioniert ist) wird kosteneffizient sein. | Ideal für Ad-hoc- oder intermittierende Workloads. Es ist nicht erforderlich, Daten zu laden, sodass es einfacher ist, den Vorgang zu starten und auszuführen. Die Abrechnung pro Nutzung wird kosteneffizient sein. |
| Abfrageleistung | Bietet hohe Parallelität und niedrige Latenz. Unterstützt umfangreiche Zwischenspeicherungsoptionen, einschließlich materialisierter Ansichten. Es gibt die Möglichkeit, Kompromisse mit workload management (WLM) auszuwählen. | Für Dashboardabfragen nicht geeignet. Millisekunden-Antwortzeiten werden nicht erwartet. Es funktioniert nur für externe Daten. |
Bewertung dedizierter SQL-Pools
Bewerten Sie für die dedizierte SQL-Poolbewertung die folgenden Plattformpunkte.
- Was ist die aktuelle Data Warehouse-Plattform (Microsoft SQL Server, Netezza, Teradata, Greenplum oder andere)?
- Für einen Migrations-Workload bestimmen Sie den Hersteller und das Modell Ihrer Appliance für jede Umgebung. Details zu CPUs, GPUs und Arbeitsspeicher enthalten.
- Für eine Appliance-Migration, wann wurde die Hardware gekauft? Ist die Appliance vollständig abgeschrieben? Wenn nicht, wann endet die Abschreibung? Und wie viel Investitionsaufwand bleibt übrig?
- Gibt es Hardware- und Netzwerkarchitekturdiagramme?
- Wo befinden sich die Datenquellen für Ihr geplantes Data Warehouse (Azure, anderer Cloudanbieter oder lokal)?
- Was sind die Datenhostingplattformen der Datenquellen für Ihr Data Warehouse (Microsoft SQL Server, Azure SQL Database, DB2, Oracle, Azure Blob Storage, AWS, Hadoop oder andere)?
- Handelt es sich bei einer der Datenquellen um ein Data Warehouse? Wenn ja, welche?
- Identifizieren Sie alle ETL-, ELT- und Datenladeszenarien (Batchfenster, Streaming, nah in Echtzeit). Identifizieren Sie vorhandene Vereinbarungen auf Servicelevel für jedes Szenario, und dokumentieren Sie die erwarteten SLAs in der neuen Umgebung.
- Was ist die aktuelle Data Warehouse-Größe?
- Welche Wachstumsrate des Datasets wird für den dedizierten SQL-Pool angepeilt?
- Beschreiben Sie die Umgebungen, die Sie heute verwenden (Entwicklung, Test oder Produktion).
- Welche Tools sind derzeit für die Datenverschiebung im Einsatz (ADF, Microsoft SQL Server Integration Services (SSIS), Robocopy, Informatica, SFTP oder andere)?
- Planen Sie, Echtzeit- oder Nahezu-Echtzeitdaten zu laden?
Wertet die folgenden Datenbankpunkte aus.
- Was ist die Anzahl der Objekte in jedem Data Warehouse (Schemas, Tabellen, Ansichten, gespeicherte Prozeduren, Funktionen)?
- Handelt es sich um ein Sternschema, ein Schneeflakeschema oder ein anderes Design?
- Was sind die größten Tabellen in Bezug auf Größe und Anzahl von Datensätzen?
- Was sind die breitesten Tabellen in Bezug auf die Anzahl der Spalten?
- Gibt es bereits ein Datenmodell für Ihr Data Warehouse? Ist es ein Kimball-, Inmon- oder Star-Schemadesign?
- Werden langsam geänderte Dimensionen (SCDs) verwendet? Wenn ja, welche Typen?
- Wird eine semantische Ebene mithilfe relationaler Data marts oder Analysis Services (tabellarisch oder multidimensional) oder eines anderen Produkts implementiert?
- Was sind die HA/RPO/RTO/Datenarchivierungsanforderungen?
- Was sind die Anforderungen für die Regionsreplikation?
Bewerten Sie die folgenden Workloadmerkmale.
- Wie hoch ist die geschätzte Anzahl gleichzeitiger Benutzer oder Aufträge, die während der Spitzenzeiten auf das Data Warehouse zugreifen?
- Wie hoch ist die geschätzte Anzahl gleichzeitiger Benutzer oder Aufträge, die während der Nebenzeiten auf das Data Warehouse zugreifen?
- Gibt es einen Zeitraum, in dem keine Benutzer oder Aufträge vorhanden sind?
- Was sind die Erwartungen an die Leistung der Abfrageausführung für interaktive Abfragen?
- Was sind die Leistungserwartungen an die Datenladeleistung für tägliche/wöchentliche/monatliche Datenladeprozesse oder Aktualisierungen?
- Was sind Ihre Erwartungen an die Ausführung von Abfragen für Berichte und analytische Analysen?
- Wie komplex werden die am häufigsten ausgeführten Abfragen sein?
- Welcher Prozentsatz der Gesamtgröße des Datasets ist Ihr aktives Dataset?
- Ungefähr welcher Prozentsatz der Workload wird für das Laden oder Aktualisieren, Batchverarbeitung oder Berichterstellung, interaktive Abfrage und analytische Verarbeitung erwartet?
- Identifizieren Sie die datenaufwendigen Muster und Plattformen:
- Aktuelle und geplante Berichterstellungsmethode und -tools.
- Welche Anwendungs- oder Analysetools greifen auf das Data Warehouse zu?
- Anzahl gleichzeitiger Abfragen?
- Durchschnittliche Anzahl aktiver Abfragen zu einem beliebigen Zeitpunkt?
- Was ist die Art des Datenzugriffs (interaktiv, Ad-hoc, Export oder andere)?
- Datenrollen und vollständige Beschreibung ihrer Datenanforderungen.
- Maximale Anzahl gleichzeitiger Verbindungen.
- SLA-Muster der Abfrageleistung nach:
- Dashboard-Benutzer.
- Batchberichterstellung
- ML-Benutzer.
- ETL-Prozess.
- Welche Sicherheitsanforderungen gelten für die vorhandene Umgebung und für die neue Umgebung (Sicherheit auf Zeilenebene, Sicherheit auf Spaltenebene, Zugriffssteuerung, Verschlüsselung und andere)?
- Haben Sie Anforderungen für die Integration der ML-Modellbewertung in T-SQL?
Serverlose SQL-Poolbewertung
Synapse Serverless SQL-Pool unterstützt drei Hauptanwendungsfälle.
- Grundlegende Ermittlung und Untersuchung: Unterschiedliche Datenformate (Parquet, CSV, JSON) in Ihrem Data Lake können zur Planung einer geeigneten Vorgehensweise für die Gewinnung von Erkenntnissen schnell und einfach analysiert werden.
- Logisches Data Warehouse: Stellen Sie eine relationale Abstraktion über rohen oder unterschiedlichen Daten bereit, ohne Daten neu zu ordnen und zu transformieren, sodass eine immer aktuelle Ansicht Ihrer Daten möglich ist.
- Datentransformation: Einfache, skalierbare und leistungsfähige Methode zum Transformieren von Daten im See mithilfe von T-SQL, sodass sie in BI und andere Tools gespeist oder in einen relationalen Datenspeicher geladen werden kann (Synapse SQL-Datenbanken, Azure SQL-Datenbank oder andere).
Verschiedene Datenrollen können vom serverlosen SQL-Pool profitieren:
- Datentechniker können den Datensee untersuchen, Daten transformieren und vorbereiten, indem Sie diesen Dienst verwenden und ihre Datentransformationspipelinen vereinfachen.
- Data Scientists können dank Features wie OPENROWSET und automatischer Schema-Ableitung schnell über den Inhalt und die Struktur der Daten im Datensee nachdenken.
- Datenanalysten können Daten und spark externe Tabellen untersuchen , die von Datenwissenschaftlern oder Datentechnikern erstellt werden, indem sie vertraute T-SQL-Anweisungen oder ihre bevorzugten Abfragetools verwenden.
- BI-Experten können Power BI-Berichte schnell über Daten im Datensee und Spark-Tabellen erstellen.
Hinweis
Die T-SQL-Sprache wird sowohl im dedizierten SQL-Pool als auch im serverlosen SQL-Pool verwendet, es gibt jedoch einige Unterschiede in der Gruppe der unterstützten Features. Weitere Informationen zu T-SQL-Features, die in Synapse SQL (dedizierte und serverlos) unterstützt werden, finden Sie unterTransact-SQL Features, die in Azure Synapse SQL unterstützt werden.
Bewerten Sie für die Serverlose SQL-Poolbewertung die folgenden Punkte.
- Haben Sie Anwendungsfälle, um Daten aus einem Data Lake mithilfe relationaler Abfragen (T-SQL) zu ermitteln und zu untersuchen?
- Haben Sie Anwendungsfälle, um ein logisches Data Warehouse auf einem Data Lake zu erstellen?
- Ermitteln Sie, ob es Anwendungsfälle gibt, um Daten im Datensee zu transformieren, ohne zuerst Daten aus dem Datensee zu verschieben.
- Sind Ihre Daten bereits in Azure Data Lake Storage (ADLS) oder Azure Blob Storage enthalten?
- Wenn Sich Ihre Daten bereits in ADLS befinden, haben Sie eine gute Partitionsstrategie im Data Lake?
- Verfügen Sie über Betriebsdaten in Azure Cosmos DB? Haben Sie Anwendungsfälle für Echtzeitanalysen auf Azure Cosmos DB, ohne dass transaktionen betroffen sind?
- Identifizieren Sie die Dateitypen im Datensee.
- Identifizieren Sie die SLA für die Abfrageleistung. Erfordert Ihr Anwendungsfall vorhersehbare Leistung und Kosten?
- Haben Sie ungeplante oder plötzliche SQL-Analysearbeitslasten?
- Identifizieren Sie das Muster und die Plattformen, die Daten verbrauchen:
- Aktuelle und geplante Berichterstellungsmethode und -tools.
- Welche Anwendung oder Analysetools greifen auf den serverlosen SQL-Pool zu?
- Durchschnittliche Anzahl aktiver Abfragen zu einem beliebigen Zeitpunkt.
- Was ist die Art des Datenzugriffs (interaktiv, Ad-hoc, Export oder andere)?
- Datenrollen und vollständige Beschreibung ihrer Datenanforderungen.
- Maximale Anzahl gleichzeitiger Verbindungen.
- Abfragekomplexität?
- Was sind die Sicherheitsanforderungen (Zugriffssteuerung, Verschlüsselung und andere)?
- Was ist die erforderliche T-SQL-Funktionalität (gespeicherte Prozeduren oder Funktionen)?
- Identifizieren Sie die Anzahl der Abfragen, die an den serverlosen SQL-Pool und die Resultsetgröße jeder Abfrage gesendet werden.
Tipp
Wenn Sie neu bei serverlosen SQL-Pools sind, empfehlen wir Ihnen, den Lernpfad Erstellen von Datenanalyselösungen mit Azure Synapse serverlosen SQL-Pools zu absolvieren.
Sparkpool-Bewertung
Spark pools in Azure Synapse ermöglichen die folgenden wichtigen Szenarien.
- Datentechnik/Datenvorbereitung: Apache Spark enthält viele Sprachfeatures zur Unterstützung der Vorbereitung und Verarbeitung großer Datenmengen. Die Vorbereitung und Verarbeitung kann die Daten wertvoller machen und es ermöglichen, von anderen Azure Synapse-Diensten genutzt zu werden. Sie wird über mehrere Sprachen (C#, Scala, PySpark, Spark SQL) und mithilfe von bereitgestellten Bibliotheken für die Verarbeitung und Konnektivität aktiviert.
- Maschinelles Lernen: Apache Spark kommt mit MLlib, einer ML-Bibliothek, die auf Spark basiert, die Sie aus einem Spark-Pool verwenden können. Spark-Pools umfassen auch Anaconda, eine Python-Verteilung, die verschiedene Pakete für Data Science einschließlich ML umfasst. Darüber hinaus stellt Apache Spark auf Synapse vorinstallierte Bibliotheken für Microsoft Machine Learning bereit, bei denen es sich um ein fehlertolerantes, elastisches und RESTful ML-Framework handelt. In Kombination mit integrierter Unterstützung für Notizbücher verfügen Sie über eine umfangreiche Umgebung zum Erstellen von ML-Anwendungen.
Hinweis
Weitere Informationen finden Sie unter Apache Spark in Azure Synapse Analytics.
Außerdem ist Azure Synapse mit Linux Foundation Delta Lake kompatibel. Delta Lake ist eine Open-Source-Speicherschicht, die ACID-Transaktionen (Atomität, Konsistenz, Isolation und Haltbarkeit) zu Apache Spark und Big Data-Workloads bringt. Weitere Informationen finden Sie unter "Was ist Delta Lake".
Bewerten Sie für die Spark pool-Bewertung die folgenden Punkte.
- Identifizieren Sie die Workloads, die datentechnische oder Datenvorbereitung erfordern.
- Definieren Sie klar die Arten von Transformationen.
- Ermitteln Sie, ob unstrukturierte Daten verarbeitet werden sollen.
- Wenn Sie von einer vorhandenen Spark/Hadoop-Workload migrieren:
- Was ist die vorhandene Big Data-Plattform (Cloudera, Hortonworks, Cloud Services oder andere)?
- Wenn es sich um eine Migration von der lokalen Bereitstellung handelt, ist Hardware veraltet oder Lizenzen abgelaufen? Wenn nicht, wann erfolgt die Abschreibung oder das Ablaufen?
- Was ist der vorhandene Clustertyp?
- Was sind die erforderlichen Bibliotheken und Spark-Versionen?
- Ist es eine Hadoop-Migration zu Spark?
- Was sind die aktuellen oder bevorzugten Programmiersprachen?
- Was ist die Art der Arbeitsauslastung (Big Data, ML oder andere)?
- Was sind die vorhandenen und geplanten Clienttools und Reporting-Plattformen?
- Was sind die Sicherheitsanforderungen?
- Gibt es aktuelle Schmerzpunkte und Einschränkungen?
- Planen Sie, Delta Lake zu verwenden, oder verwenden Sie es derzeit?
- Wie verwalten Sie pakete heute?
- Identifizieren Sie die erforderlichen Computeclustertypen.
- Ermitteln Sie, ob die Clusteranpassung erforderlich ist.
Tipp
Wenn Sie mit Spark-Pools noch nicht vertraut sind, empfehlen wir Ihnen, den Lernpfad " Data Engineering ausführen" mit Azure Synapse Apache Spark Pools zu durchlaufen.
Nächste Schritte
Im nächsten Artikel der Azure Synapse-Erfolgsserie erfahren Sie, wie Sie das Synapse-Arbeitsbereichsdesign auswerten und überprüfen, ob sie Richtlinien und Anforderungen erfüllt.