Multimodale Suche in Azure AI Search

Die multimodale Suche bezieht sich auf die Möglichkeit, Informationen über mehrere Inhaltstypen hinweg aufzunehmen, zu verstehen und abzurufen, einschließlich Text, Bilder, Video und Audio. In Azure AI Search unterstützt die multimodale Suche nativ die Aufnahme von Dokumenten, die Text und Bilder enthalten, und das Abrufen ihrer Inhalte, sodass Sie Suchvorgänge durchführen können, die beide Modalitäten kombinieren.

Das Erstellen einer robusten multimodalen Pipeline umfasst in der Regel Folgendes:

Extrahieren von Inlinebildern und Seitentext aus Dokumenten.
Beschreiben von Bildern in natürlicher Sprache.
Einbetten von Text und Bildern in einen freigegebenen Vektorbereich.
Speichern der Bilder für die spätere Verwendung als Anmerkungen.

Die multimodale Suche erfordert auch die Beibehaltung der Reihenfolge der Informationen, wie sie in den Dokumenten angezeigt wird, und das Ausführen von Hybridabfragen , die Volltextsuche mit Vektorsuche und semantischer Rangfolge kombinieren.

In der Praxis kann eine Anwendung, die die multimodale Suche verwendet, Fragen wie "Was ist der Prozess, um ein HR-Formular genehmigt zu haben?" beantworten, auch wenn die einzige autoritative Beschreibung des Prozesses in einem eingebetteten Diagramm in einer PDF-Datei gespeichert ist.

Warum die multimodale Suche verwenden?

Die multimodale Suche erfordert traditionell separate Systeme für die Text- und Bildverarbeitung, die häufig benutzerdefinierten Code und Konfigurationen auf niedriger Ebene von Entwicklern erfordern. Die Aufrechterhaltung dieser Systeme führt zu höheren Kosten, Komplexität und Aufwand.

Azure AI Search behandelt diese Herausforderungen, indem Bilder in dieselbe Abrufpipeline wie Text integriert werden. Mit einer einzigen multimodalen Pipeline können Sie das Einrichten und Entsperren von Informationen vereinfachen, die sich in Diagrammen, Screenshots, Infografiken, gescannten Formularen und anderen komplexen Visuellen befinden.

Multimodale Suche ist ideal für Retrieval-Augmented Generation (RAG)-Anwendungsfälle. Durch die Interpretation der strukturellen Logik von Bildern verringert die multimodale Suche die Wahrscheinlichkeit, dass Ihre RAG-Anwendung oder Ihr KI-Agent wichtige visuelle Details übersieht. Außerdem erhalten Ihre Benutzer detaillierte Antworten, die unabhängig von der Modalität der Quelle auf ihre ursprünglichen Quellen zurückverfolgt werden können.

Wie funktioniert die multimodale Suche?

Um die Erstellung einer multimodalen Pipeline zu vereinfachen, bietet Azure AI Search den Import-Daten-Assistenten im Azure-Portal an. Der Assistent hilft Ihnen, eine Datenquelle zu konfigurieren, Extraktions- und Anreicherungseinstellungen zu definieren und einen multimodalen Index zu generieren, der Text, eingebettete Bildverweise und Vektoreinbettungen enthält. Weitere Informationen finden Sie unter Quickstart: Multimodale Suche im Azure Portal.

Der Assistent führt die folgenden Schritte aus, um eine multimodale Pipeline zu erstellen:

Inhalt extrahieren: Wählen Sie aus der Dokumentextraktionsfertigkeit oder dokumentlayout-Fähigkeit aus, um Seitentext, Inlinebilder und strukturelle Metadaten zu erhalten. Jede Fähigkeit bietet unterschiedliche Funktionen für metadatenextraktion, Tabellenverarbeitung und Dateiformatunterstützung. Ausführliche Vergleiche finden Sie unter "Optionen für die multimodale Inhaltsextraktion".
Blocktext: Die Text-Split-Fähigkeit teilt den extrahierten Text in handhabbare Blöcke zur Verwendung in der verbleibenden Pipeline, wie etwa der Einbettungs-Fähigkeit.
Generieren von Bildbeschreibungen: Die GenAI Prompt-Fähigkeit verbalisiert Bilder und erzeugt präzise Natursprachbeschreibungen für die Textsuche und Einbettung mit einem großen Sprachmodell (LLM).
Einbettungen generieren: Die Einbettungskompetenz erstellt Vektordarstellungen von Text und Bildern, wodurch Ähnlichkeit und Hybridabruf ermöglicht werden. Sie können Azure OpenAI, Microsoft Foundry oder Azure Vision einbettende Modelle nativ aufrufen.

Alternativ können Sie die Bildverbalisierung überspringen und den extrahierten Text und Bilder direkt an ein multimodales Einbettungsmodell über die AML-Fähigkeit oder Azure Vision multimodale Einbettungsfertigkeit übergeben. Weitere Informationen finden Sie unter "Optionen für das einbetten von multimodalen Inhalten".
Extrahierte Bilder speichern: Der Wissensspeicher enthält extrahierte Bilder, die direkt an Clientanwendungen zurückgegeben werden können. Wenn Sie den Assistenten verwenden, wird die Position eines Bilds direkt im multimodalen Index gespeichert und ermöglicht einen bequemen Abruf zur Abfragezeit.

Tip

Um die multimodale Suche in Aktion zu sehen, schließen Sie Ihren vom Assistenten erstellten Index in die multimodale RAG-Beispielanwendung ein. Das Beispiel veranschaulicht, wie eine RAG-Anwendung einen multimodalen Index verwendet und sowohl Textzitate als auch zugehörige Bildausschnitte in der Antwort rendert. Das Beispiel zeigt auch den codebasierten Prozess der Erfassung und Indizierung von Daten.

Optionen für die multimodale Inhaltsextraktion

Eine multimodale Pipeline beginnt damit, jedes Quelldokument in Textabschnitte, Inline-Bilder und zugehörige Metadaten zu zerlegen. Für diesen Schritt bietet Azure AI Search drei integrierte Fähigkeiten:

Characteristic	Dokumentextraktionskompetenz	Fähigkeit im Bereich des Dokumentlayouts	Azure Fähigkeit zum Verständnis von Inhalten
Metadatenextraktion von Textpositionen (Seiten und begrenzende Polygone)	No	Yes	Yes
Extraktion von Standort-Metadaten der Bilder (Seiten und begrenzende Polygone)	Yes	Yes	Yes
Tabellenextraktion und -erhaltung	No	No	Ja (einschließlich seitenübergreifender Tabellen)
Seitenübergreifende semantische Einheiten	Nicht anwendbar	Nur eine Seite	Ja (überschreitet Seitengrenzen)
Speicherortmetadatenextraktion basierend auf dem Dateityp	Nur PDF-Dateien.	Mehrere unterstützte Dateitypen gemäß Azure Document Intelligence im Layoutmodell der Foundry Tools.	Mehrere unterstützte Dateitypen, einschließlich PDF, DOCX, XLSX und PPTX.
Abrechnung für die Datenextraktion	Die Bildextraktion wird gemäß Azure AI Search Pricing abgerechnet.	Abgerechnet gemäß Dokumentlayout-Preisen.	Berechnet gemäß Azure Content Understanding Pricing.
Integrierte Segmentierung	Nein (Textaufteilungsfunktion verwenden)	Ja (basierend auf Absatzgrenzen)	Ja (Bildung semantischer Blöcke)
Empfohlene Szenarien	Schnelle Prototyperstellung oder Produktionspipelinen, bei denen die genaue Position oder detaillierte Layoutinformationen nicht erforderlich sind.	RAG-Pipelines und Agent-Workflows, die präzise Seitenzahlen, Seitenhighlights oder Diagrammüberlagerungen in Client-Apps benötigen.	Erweiterte Dokumentanalyse, die eine seitenübergreifende Tabellenextraktion, semantische Blöcke oder eine konsistente Behandlung in Dokumentformaten erfordert (PDF, DOCX, XLSX, PPTX).

Optionen für das Einbetten von multimodalen Inhalten

In Azure AI Search kann das Abrufen von Wissen aus Bildern zwei ergänzende Pfade folgen: Bildverbalisierung oder direkte Einbettungen. Wenn Sie die Unterschiede verstehen, können Sie Kosten, Latenz und Qualität mit den Anforderungen Ihrer Anwendung abstimmen.

Bildverbalisierung gefolgt von Texteinbettungen

Mit dieser Methode ruft die GenAI Prompt skill eine LLM während der Aufnahme auf, um eine präzise Beschreibung in natürlicher Sprache jedes extrahierten Bilds zu erstellen, z. B. "Fünfstufiger HR-Zugriffsworkflow, der mit der Genehmigung des Vorgesetzten beginnt." Die Beschreibung wird als Text gespeichert und zusammen mit dem umgebenden Dokumenttext eingebettet, die Sie dann durch Aufrufen der Einbettungsmodelle von Azure OpenAI, Microsoft Foundry oder Azure Vision vektorisieren können.

Da das Bild jetzt in der Sprache ausgedrückt wird, können Azure AI Search:

Interpretieren sie die Beziehungen und Entitäten, die in einem Diagramm angezeigt werden.
Stellen Sie vorgefertigte Beschriftungen bereit, die ein LLM in einer Antwort zitieren kann.
Gibt relevante Codeausschnitte für RAG-Anwendungen oder KI-Agent-Szenarien mit geerdeten Daten zurück.

Die hinzugefügte semantische Tiefe beinhaltet einen LLM-Aufruf für jedes Bild und eine geringfügige Zunahme der Indizierungszeit.

Direkte multimodale Einbettungen

Eine zweite Option besteht darin, die von dokumenten extrahierten Bilder und Text an ein multimodales Einbettungsmodell zu übergeben, das Vektordarstellungen im selben Vektorraum erzeugt. Die Konfiguration ist einfach, und zur Indizierungszeit ist kein LLM erforderlich. Direkte Einbettungen eignen sich gut für visuelle Ähnlichkeiten und "find-me-something-that-looks-like-this"-Szenarien.

Da die Darstellung rein mathematisch ist, vermittelt sie nicht, warum zwei Bilder miteinander verknüpft sind, und es bietet keinen bereiten LLM-Kontext für Zitate oder detaillierte Erläuterungen.

Kombinieren beider Ansätze

Viele Lösungen benötigen beide Codierungspfade. Diagramme, Flussdiagramme und andere erklärungsreiche visuelle Elemente werden verbalisiert, sodass semantische Informationen zur Verfügung stehen für die Einbindung von RAG- und KI-Agenten. Screenshots, Produktfotos oder Grafiken werden direkt für eine effiziente Ähnlichkeitssuche eingebettet. Sie können Ihre Azure AI Search Index- und Indexer-Skillsetpipeline anpassen, damit sie die beiden Vektorgruppen speichern und nebeneinander abrufen kann.

Optionen zum Abfragen von multimodalen Inhalten

Wenn Ihre multimodale Pipeline von der GenAI Prompt-Fähigkeit unterstützt wird, können Sie Hybridabfragen sowohl über Nur-Text- als auch verbalisierte Bilder in Ihrem Suchindex ausführen. Sie können auch Filter verwenden, um die Suchergebnisse auf bestimmte Inhaltstypen einzugrenzen, z. B. nur Text oder nur Bilder.

Obwohl die GenAI Prompt-Fähigkeit Text-zu-Vektor-Abfragen über die Hybridsuche unterstützt, unterstützt sie keine Bild-zu-Vektor-Abfragen. Nur die multimodalen Einbettungsmodelle stellen die Vektorisierer bereit, die Bilder zur Abfragezeit in Vektoren konvertieren.

Um Bilder als Abfrageeingaben für Ihren multimodalen Index zu verwenden, müssen Sie die fähigkeiten AML oder Azure Vision multimodale Einbettungen mit einem entsprechenden Vektorizer verwenden. Weitere Informationen finden Sie unter Konfigurieren eines Vektorizers in einem Suchindex.

Lernprogramme und Beispiele

Um Ihnen bei den ersten Schritten mit der multimodalen Suche in Azure AI Search zu helfen, finden Sie hier eine Sammlung von Inhalten, die veranschaulicht, wie sie mit Azure Funktionalität multimodale Indizes erstellen und optimieren.

Content	Description
Quickstart: Multimodale Suche im Azure Portal	Erstellen und testen Sie einen multimodalen Index im Azure-Portal mithilfe des Assistenten und des Such-Explorers.
Multimodales Lernprogramm	Extrahieren Sie Text und Bilder, Datenblöcke und vektorisieren Sie die Blöcke für die Ähnlichkeitssuche und andere Abrufmuster.
Beispiel-App: Multimodales RAG-GitHub-Repository	Eine End-to-End-, codefertige RAG-Anwendung mit multimodalen Funktionen, die sowohl Textausschnitte als auch Bildanmerkungen darstellen. Ideal für das Starten von Enterprise-Copiloten.

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-20