Importdaten-Assistent im Azure-Portal

Der Import-Daten-Assistent im Azure-Portal stellt einen codefreien Pfad zu einem abfragefähigen Suchindex bereit. Es stellt eine Verbindung mit einer unterstützten Datenquelle her, konfiguriert optionale KI-Anreicherung und Vektorisierung, leitet ein Indexschema ab und lädt Inhalte in den Index. Sie können den Assistenten für Stichwortsuche, RAG und multimodale RAG verwenden.

Der Assistent unterstützt Folgendes:

  • Erstellung einer Indexer-Pipeline, einschließlich eines Indexes, Indexers, einer Datenquelle und eines Skillsets.
  • Integrierte Indizierer und Azure Logic Apps Konnektoren.
  • Fähigkeitenbasierte KI-Anreicherung.
  • Datenblöcke und integrierte Vektorisierung, einschließlich multimodaler Einbettungen.
  • Konfiguration der semantischen Rangfolge.
  • Erstellung von Wissensspeichern.

Was der Assistent unterstützt

In diesem Abschnitt werden die im Assistenten verfügbaren Funktionen beschrieben.

Integrierte Beispieldaten

Integrierte Beispieldaten für den Hotels-Beispielindex sind nicht mehr verfügbar. Sie können jedoch einen identischen Index erstellen, indem Sie Quickstart: Volltextsuche auf dem Azure portal folgen.

Datenquellen

Der Assistent stellt über integrierte Indizierer oder Logic Apps-Connectoren (Vorschau) eine Verbindung zu den folgenden Datenquellen her.

Datenquelle Unterstützt Verbindung
ADLS Gen2 Integrierter Indexer
Azure Blob Storage Integrierter Indexer
Azure Dateispeicher Logic Apps Konnektor
Azure Warteschlangen Logic Apps Konnektor
Azure Table Storage Integrierter Indexer
Azure SQL-Datenbank und verwaltete Instanz Integrierter Indexer
Cosmos DB für NoSQL Integrierter Indexer
Cosmos DB für MongoDB Integrierter Indexer
Cosmos DB für Apache Gremlin Integrierter Indexer
MySQL Nicht anwendbar
OneDrive Logic Apps Konnektor
OneDrive for Business Logic Apps Konnektor
OneLake Integrierter Indexer
Service Bus Logic Apps Konnektor
SharePoint Logic Apps Konnektor
SQL Server auf virtuellen Computern Integrierter Indexer

Tipp

Anstatt einen Logic Apps-Connector für Azure Dateispeicher oder SharePoint zu verwenden, können Sie die REST-APIs des Suchdiensts verwenden, um Daten aus diesen Quellen programmgesteuert zu indizieren. Weitere Informationen finden Sie unter Index-Daten aus Azure Files und Index-Daten aus SharePoint Dokumentbibliotheken.

Fähigkeiten

Die folgenden Fähigkeiten können in einem von Wizards generierten Skillset angezeigt werden. Nachdem das Skillset erstellt wurde, können Sie die JSON-Definition ändern, um Fähigkeiten hinzuzufügen oder zu entfernen.

Fertigkeit Unterstützt BESCHREIBUNG
AML Nur für RAG und multimodale RAG verfügbar.
Azure Vision multimodale Einbettung Nur für RAG und multimodale RAG verfügbar.
Azure OpenAI-Einbettung Nur für RAG und multimodale RAG verfügbar.
Dokumentlayout Nur für RAG und multimodale RAG verfügbar.
Entitätserkennung Nur für die Schlüsselwortsuche verfügbar.
Bildanalyse Verfügbar für Azure Storage Blobs und Microsoft OneLake-Dateien, vorausgesetzt, dass der Standardanalysemodus verwendet wird. Verwenden Sie einen Bildinhaltstyp, z. B. PNG oder JPG, oder ein eingebettetes Bild in einer Anwendungsdatei, z. B. PDF.
Schlüsselbegriffserkennung Nur für die Schlüsselwortsuche verfügbar.
Sprachenerkennung Nur für die Schlüsselwortsuche verfügbar. Wird automatisch hinzugefügt, wenn das Skillset Entitätserkennung, Schlüsselausdrucksextraktion oder Textaufteilung enthält. Vom Benutzer nicht konfigurierbar.
Textübersetzung Nicht zutreffend.
OCR Verfügbar für Azure Storage Blobs und Microsoft OneLake-Dateien, vorausgesetzt, dass der Standardanalysemodus verwendet wird. Verwenden Sie einen Bildinhaltstyp, z. B. PNG oder JPG, oder ein eingebettetes Bild in einer Anwendungsdatei, z. B. PDF.
PII-Erkennung Nicht zutreffend.
Stimmung Nicht zutreffend.
Shaper Nicht zutreffend.
Textteilung Diese Funktion wurde für die Datensegmentierung hinzugefügt, wenn Sie ein Einbettungsmodell auswählen. Für nicht-einbettende Skills wird sie hinzugefügt, wenn Sie die Granularität des Quellfelds auf Seiten oder Sätze festlegen.
Textzusammenführung Diese Funktion wurde für die Datensegmentierung hinzugefügt, wenn Sie ein Einbettungsmodell auswählen. Für nicht-einbettende Skills wird sie hinzugefügt, wenn Sie die Granularität des Quellfelds auf Seiten oder Sätze festlegen.

Semantische Rangfolge

Die semantische Rangordnung ist für alle Assistentenszenarios verfügbar: Stichwortsuche, RAG und multimodales RAG. Wenn Sie dies aktivieren, fügt der Assistent dem Index eine semantische Konfiguration hinzu.

Wissensspeicher

Die Erstellung des Wissensspeichers ist nur für das multimodale RAG-Szenario verfügbar. Der Assistent extrahiert Bilder aus Ihren Dokumenten und speichert sie als Blobs in einem von Ihnen angegebenen Azure Storage-Container.

Was der Assistent erstellt

Nach Abschluss des Assistenten werden mehrere Objekte in Ihrem Suchdienst erstellt. Die genauen Objekte hängen von den ausgewählten Optionen ab. Wenn Sie beispielsweise eine kompetenzbasierte Anreicherung anwenden, wird ein Skillset erstellt.

Objekt BESCHREIBUNG
Datenquelle Speichert Verbindungsinformationen für eine unterstützte Microsoft oder Azure Datenquelle.
Index Physische Datenstruktur für Volltextsuche, Vektorsuche und andere Abfragen. Kann eine semantische Konfiguration enthalten, wenn Sie die semantische Rangfolge aktivieren.
Indexer Steuert den Datenimport durch Abruf aus einer Datenquelle in einen Zielindex nach einem optionalen Zeitplan. Kann auch auf ein Skillset verweisen.
Qualifikationsgruppe (Optional) Satz von Anweisungen für KI-Anreicherung, Datenblöcke und integrierte Vektorisierung während der Indizierung.
Wissensspeicher (Optional) Sekundärer Speicher in Azure Storage für die Ausgabe von Skillset, z. B. extrahierte Bilder.

So können Sie diese Objekte nach dem Ausführen des Assistenten anzeigen:

  1. Wechseln Sie zum Suchdienst im Azure-Portal.
  2. Wählen Sie im linken Bereich die Suchverwaltung aus, um Seiten für Indizes, Indexer, Datenquellen und Skillsets zu suchen.

Vorteile und Einschränkungen

In diesem Abschnitt werden die Vor- und Nachteile der Zauberer-Erfahrung erörtert. Verwenden Sie diese Informationen, um zu entscheiden, wann der Assistent verwendet werden soll und wann Alternativen berücksichtigt werden sollen, z. B. programmgesteuerte Ansätze mit REST-APIs oder Azure SDKs.

Vorteile

Bevor Sie Code schreiben, können Sie den Assistenten für Prototypen- und Proof-of-Concept-Tests verwenden. Der Assistent verbindet sich mit externen Datenquellen, entnimmt die Daten stichprobenartig zum Erstellen eines anfänglichen Index und importiert die Daten optional, um sie als JSON-Dokumente in Azure KI-Suche zu vektorisieren.

Bei der Bewertung von Kompetenzprofilen übernimmt der Assistent die Zuordnung der Ausgabefelder und fügt Hilfsfunktionen hinzu, um nutzbare Objekte zu erstellen. Textteilung wird hinzugefügt, wenn Sie einen Analysemodus angeben. Die Textzusammenführung wird hinzugefügt, wenn Sie die Bildanalyse auswählen, damit der Assistent Textbeschreibungen mit Bildinhalten wieder zusammenführen kann. Alle diese Aufgaben gehen mit einer Lernkurve einher. Wenn Sie noch keine Erfahrung mit der Anreicherung haben, können Sie durch die Übernahme dieser Schritte den Wert einer Skill messen, ohne viel Zeit und Mühe investieren zu müssen.

Sampling ist der Prozess, mit dem ein Indexschema abgeleitet wird, das einige Einschränkungen aufweist. Wenn die Datenquelle erstellt wurde, entscheidet der Assistent anhand einer Stichprobe von Dokumenten, welche Spalten Teil der Datenquelle sind. Nicht alle Dateien werden gelesen, da dies Stunden für große Datenquellen dauern kann. Aufgrund einer Auswahl von Dokumenten werden Quellmetadaten (z. B. Feldname oder Typ) verwendet, um eine Feldauflistung in einem Indexschema zu erstellen. Basierend auf der Komplexität der Quelldaten müssen Sie möglicherweise das anfängliche Schema für Genauigkeit bearbeiten oder um Vollständigkeit erweitern. Sie können die Änderungen auf der Indexdefinitionsseite inline vornehmen.

Insgesamt sind die Vorteile des Assistenten klar: Solange die Anforderungen erfüllt sind, können Sie innerhalb von Minuten einen abfragbaren Index erstellen. Der Assistent übernimmt einige der Komplexitäten der Indizierung, wie beispielsweise die Serialisierung von Daten als JSON-Dokumente.

Einschränkungen

  • Der Assistent unterstützt keine Iteration oder Wiederverwendung. Bei jedem Pass-Through erstellt der Assistent einen Index, eine neue Qualifikationsgruppe und eine neue Indexer-Konfiguration. Nach Abschluss des Assistenten können Sie die erstellten Objekte mithilfe anderer Portal-Tools, der REST-APIs oder der Azure SDKs bearbeiten.

  • Der Quellinhalt muss sich in einer unterstützten Datenquelle befinden.

  • Das Sampling, das verwendet wird, um ein vorläufiges Indexschema abzuleiten, erfolgt über eine Teilmenge von Quelldaten. Bei großen Datenquellen ist es möglich, dass der Assistent Felder auslässt. Wenn das Sampling nicht ausreicht, müssen Sie dem Index möglicherweise Felder manuell hinzufügen oder die abgeleiteten Datentypen korrigieren.

  • KI-Anreicherung und integrierte Vektorisierung, wie im Assistenten dargestellt, ist auf eine Teilmenge der integrierten Fähigkeiten beschränkt.

Sichere Verbindungen

Netzwerkschutz wirkt sich auf die Portal-zu-Endpunkt-Verbindung und auch die Endpunkt-zu-externe Ressourcenverbindungen während der Portalvorgänge aus.

Portalverbindungen zu einem Suchdienst

Portalverbindungen zu einem netzwerkgeschützten Endpunkt werden mit Ihrer Client-IP-Adresse hergestellt.

Tipp

Das Portal erkennt Ihre Client-IP-Adresse und fordert Sie auf, sie der search service Firewall hinzuzufügen.

Portalverbindungen mit externen Ressourcen

Der Assistent verbindet sich mit externen Ressourcen für Folgendes:

Vom Assistenten aus wird fast jede ausgehende Anfrage für netzwerkgeschützte Daten und KI-Verarbeitung unter Verwendung der IP-Adresse Ihres Clients gestellt.

In diesem Abschnitt werden verbindungsanforderungen für ausgehende Anforderungen erläutert.

Konfigurieren des Portalzugriffs auf externe Ressourcen

  • IP-geschützte Ressourcen: Fügen Sie Ihre Client-IP-Adresse zu den externen Ressourcen allowListhinzu. Wenn unterstützt, listen Sie Microsoft.Search/searchServices als vertrauenswürdigen Dienst auf. In Azure Storage können Sie beispielsweise Microsoft.Search/searchServices als vertrauenswürdigen Dienst auflisten.

  • Private Verbindungen: Der Assistent verwendet freigegebene private Links. Überprüfen Sie, ob Ihr Suchdienst die Anforderungen der Ebene und Region erfüllt. Verifizieren Sie, dass Ihre externe Datenquelle für gemeinsame private Links unterstützt wird.

Wenn der Assistent keine Verbindung herstellen kann, wird "Access denied due to Virtual Network/Firewall rules" angezeigt. Erwägen Sie skriptgesteuerte oder programmgesteuerte Ansätze als Alternative.

Arbeitsablauf

Der Assistent folgt einem übergeordneten Workflow:

  1. Stellen Sie eine Verbindung mit einer unterstützten Azure Datenquelle her.

  2. (Optional) Fügen Sie Fähigkeiten hinzu, um Inhalte und Strukturen zu extrahieren oder zu generieren.

  3. Erstellen eines Indexschemas, das durch Sampling von Quelldaten abgeleitet wird.

  4. Führen Sie den Assistenten aus, um Objekte zu erstellen, optional Daten zu vektorisieren, Daten in einen Index zu laden, einen Zeitplan festzulegen und andere Optionen zu konfigurieren.

Der Workflow ist eine unidirektionale Pipeline. Sie können den Assistenten nicht verwenden, um objekte zu bearbeiten, die erstellt wurden, aber Sie können andere Portaltools verwenden, z. B. den Index-Designer oder JSON-Editoren, um zulässige Updates vorzunehmen.

Starten des Assistenten

  1. Wechseln Sie zum Suchdienst im Azure-Portal.

  2. Wählen Sie auf der Seite "Übersicht" die Option "Daten importieren" aus.

    Screenshot: Optionen des Import-Assistenten

    Der Assistent öffnet sich vollständig im Browserfenster und bietet Ihnen so mehr Platz zum Arbeiten.

  3. Wählen Sie ein Szenario aus: Stichwortsuche, RAG oder multimodale RAG.

    Das von Ihnen ausgewählte Szenario bestimmt die verfügbaren Datenquellen und Fähigkeiten sowie das Indexschema und die Indexerkonfiguration, die vom Assistenten erstellt werden.

  4. Führen Sie die verbleibenden Schritte aus, um den Index, den Indexer und andere anwendbare Objekte zu erstellen.

Konfigurieren einer Datenquelle

Der Assistent stellt eine Verbindung zu einer externen unterstützten Datenquelle her, indem er die interne Logik von Indexern nutzt, die dazu ausgestattet sind, die Quelle zu prüfen, Metadaten zu lesen, Dokumente zu analysieren, um Inhalte und Strukturen zu erfassen, und Inhalte als JSON zu serialisieren, um sie anschließend in Azure KI-Suche zu importieren.

Nicht alle Datenquellen der Vorschauversion sind im Assistenten garantiert verfügbar. Weil jede Datenquelle das Potenzial hat, nachgelagerte Änderungen einzuführen, wird eine Vorschaudatenquelle nur hinzugefügt, wenn sie alle Funktionen des Assistenten vollständig unterstützt, z. B. die Definition des Skillsets und des Indexschemarückschlusses.

Sie können nur aus einer einzelnen Tabelle, Datenbankansicht oder einer entsprechenden Datenstruktur importieren. Die Struktur kann jedoch hierarchische oder geschachtelte Unterstrukturen enthalten. Weitere Informationen finden Sie unter Modellieren komplexer Datentypen in Azure Search.

Konfigurieren eines Skillsets

Die Skillsetkonfiguration erfolgt nach der Datenquellendefinition, da der Typ der Datenquelle die Verfügbarkeit bestimmter integrierter Qualifikationen informiert. Wenn Sie z. B. Dateien aus Azure Blob Storage indizieren, bestimmt der analysemodus, den Sie für diese Dateien auswählen, ob eine Stimmungsanalyse verfügbar ist.

Der Zauberer fügt nicht nur von Ihnen ausgewählte Fähigkeiten hinzu, sondern auch solche, die für ein erfolgreiches Ergebnis erforderlich sind.

Skillsets sind optional, und unten auf der Seite befindet sich eine Schaltfläche zum Überspringen, wenn Sie keine KI-Anreicherung wünschen.

Konfigurieren eines Indexschemas

Der Assistent untersucht Ihre Datenquelle, um die Felder und Feldtypen zu erkennen. Je nach Datenquelle kann es auch Felder für die Indizierung von Metadaten bieten.

Da die Stichprobenentnahme unpräzise ist, überprüfen Sie den Index auf Folgendes:

  1. Ist die Feldliste vollständig? Wenn Ihre Datenquelle Felder enthält, die beim Sampling nicht aufgenommen wurden, können Sie die verpassten Felder manuell hinzufügen. Sie können felder entfernen, die der Suchoberfläche keinen Mehrwert hinzufügen oder nicht in einem Filterausdruck oder Bewertungsprofil verwendet werden.

  2. Ist der Datentyp für die eingehenden Daten geeignet? Azure KI-Suche unterstützt die Datentypen entity data model (EDM). Für Azure SQL Daten gibt es ein Mapping-Diagramm das entsprechende Werte angibt. Weitere Informationen finden Sie unter Feldzuordnungen und Transformationen.

  3. Verfügen Sie über ein Feld, das als Schlüssel fungieren kann? Dieses Feld muss ein Edm.String-Objekt sein, das ein Dokument eindeutig identifiziert. Bei relationalen Daten kann dieses einem Primärschlüssel zugeordnet werden. Bei Blobs könnte es sich um den metadata-storage-path handeln. Wenn Feldwerte Leerzeichen oder Striche enthalten, müssen Sie die Base-64-Codierschlüsseloption im Schritt " Indexer erstellen " unter "Erweiterte Optionen" festlegen, um die Überprüfung auf diese Zeichen zu unterdrücken.

  4. Legen Sie Attribute fest, um zu bestimmen, wie das Feld in einem Index verwendet wird.

    Nehmen Sie sich bei diesem Schritt Zeit, da Attribute den physischen Ausdruck von Feldern im Index bestimmen. Wenn Sie Attribute später auch programmgesteuert ändern möchten, müssen Sie den Index fast immer ablegen und neu erstellen. Kernattribute wie Searchable und Retrievable haben eine vernachlässigbare Wirkung auf den Speicher. Durch das Aktivieren von Filtern und die Nutzung von Empfehlungsfunktionen werden die Speicheranforderungen erhöht.

    • Durchsuchbar ermöglicht eine Volltextsuche. Jedes Feld, das in Freiformularabfragen oder in Abfrageausdrücken verwendet wird, muss dieses Attribut aufweisen. Für jedes als Durchsuchbar markierte Feld werden invertierte Indizes erstellt.

    • Abrufbar gibt das Feld in Suchergebnissen zurück. Jedes Feld, das Inhalt für Suchergebnisse bereitstellt, muss über dieses Attribut verfügen. Das Festlegen dieses Felds wirkt sich nicht nennenswert auf die Indexgröße aus.

    • Filterbar ermöglicht die Verwendung von Verweisen auf das Feld in Filterausdrücken. Jedes Feld, das in einem Ausdruck vom Typ $filter verwendet wird, muss über dieses Attribut verfügen. Filterausdrücke werden für exakte Übereinstimmungen verwendet. Da Textzeichenfolgen intakt bleiben, ist mehr storage erforderlich, um den Inhalt der Aussprache aufzunehmen.

    • Facettierbar ermöglicht die Verwendung des Felds in einer Facettennavigation. Als Facettierbar können nur Felder markiert werden, die auch als Filterbar markiert sind.

    • Sortierbar ermöglicht die Verwendung des Felds in einer Sortierung. Jedes Feld, das in einem Ausdruck vom Typ $Orderby verwendet wird, muss über dieses Attribut verfügen.

  5. Benötigen Sie lexikalische Analyse? Bei Edm.String-Feldern, die durchsuchbar sind, können Sie einen Analyzer festlegen, wenn Sie eine sprachgestützte Indizierung und Abfrage wünschen.

    Der Standardwert ist Standard Lucene. Sie können jedoch Microsoft Englisch auswählen, wenn Sie Microsoft-Analyse für erweiterte lexikalische Verarbeitung verwenden möchten, z. B. das Auflösen unregelmäßiger Substantiv- und Verbformen. Im Azure-Portal können nur Sprachanalysatoren angegeben werden. Wenn Sie einen benutzerdefinierten Analysator oder eine nichtsprachliche Analyse verwenden möchten, z. B. Schlüsselwort oder Muster, müssen Sie ihn programmgesteuert erstellen. Weitere Informationen finden Sie unter Hinzufügen von Sprachanalyses.

  6. Benötigen Sie Vorschlagsfunktionen in Form von AutoVervollständigen oder vorgeschlagenen Ergebnissen? Aktivieren Sie das Kontrollkästchen "Suggester ", um Typeahead-Abfragevorschläge und AutoVervollständigen für ausgewählte Felder zu aktivieren. Suggester fügen der Anzahl der tokenisierten Ausdrücke in Ihrem Index hinzu, wodurch damit mehr Speicher verbraucht wird.

Konfigurieren eines Indexers

Auf der letzten Seite des Assistenten werden Benutzereingaben für die Indexerkonfiguration gesammelt. Sie können einen Zeitplan angeben und andere Optionen festlegen, die je nach Datenquellentyp variieren.

Der Assistent richtet intern die folgenden Definitionen ein, die im Indexer erst nach ihrer Erstellung sichtbar sind.

Versuchen Sie den Assistenten

Die beste Möglichkeit, die Vorteile und Einschränkungen des Assistenten zum Importieren von Daten zu verstehen, besteht darin, sie schrittweise zu durchlaufen. Die folgenden Schnellstartanleitungen basieren auf dem Assistenten.