Gegevens verrijken met BEHULP van AI Functions

Belangrijk

Deze functie bevindt zich in openbare preview.

AI-functies zijn ingebouwde functies die u kunt gebruiken om LLM's of geavanceerde onderzoekstechnieken toe te passen op gegevens die zijn opgeslagen op Azure Databricks voor gegevenstransformatie en verrijking. Ze kunnen vanaf elke locatie worden uitgevoerd op Databricks, waaronder Databricks SQL, notebooks, Lakeflow Spark-declaratieve pijplijnen en werkstromen.

AI-functies zijn eenvoudig te gebruiken, snel en schaalbaar. Analisten kunnen ze gebruiken om gegevensinformatie toe te passen op hun eigen gegevens, terwijl data engineers, gegevenswetenschappers en machine learning-engineers ze kunnen gebruiken om batchpijplijnen op productieniveau te bouwen.

Taakspecifiek en algemeen gebruik

AI-functies hebben taakspecifieke en algemene functies:

  • Taakspecifieke AI-functies : speciaal gebouwde functies die zijn geoptimaliseerd voor een specifieke taak, zoals documentparsering, entiteitextractie, classificatie en sentimentanalyse. Deze functies worden mogelijk gemaakt door Azure Databricks-beheerde systemen die zijn ondersteund door onderzoek. Sommige functies omvatten UI-ervaringen. Zie taakspecifieke AI-functies voor ondersteunde functies en modellen.
  • ai_query — De algemene functie voor taak- en modelflexibiliteit. Geef een prompt op en kies een ondersteunde Foundation Model-API. Zie Gebruik ai_query.

Beslissingsstructuur voor taakspecifieke AI-functies en ai_query

taakspecifieke AI-functies

Taakspecifieke functies zijn gericht op een bepaalde taak, zodat u routinetransformaties kunt automatiseren, zoals entiteitextractie, vertaling en classificatie. Databricks raadt deze functies aan om aan de slag te gaan, omdat ze een geavanceerde onderzoekstechnieken aanroepen die worden onderhouden door Databricks en geen aanpassingen vereisen.

Zie Klantbeoordelingen analyseren met BEHULP van AI Functions voor een voorbeeld.

De volgende functies zijn gegroepeerd op taak.

Intelligente documentverwerking:

Functie Beschrijving
ai_parse_document Parseren van gestructureerde inhoud (tekst, tabellen, afbeeldingsbeschrijvingen) en indeling van ongestructureerde documenten met behulp van geavanceerde onderzoekstechnieken.
ai_extract Extraheer gestructureerde velden uit documenten of tekst met behulp van een schema dat u definieert.
ai_classify Classificeer invoertekst op basis van labels die u opgeeft met behulp van geavanceerde onderzoekstechnieken.
ai_prep_search Transformeer geparseerde documentuitvoer in segmenten die zijn geoptimaliseerd voor vectorzoekopdrachten en RAG-pijplijnen.

Tekst transformeren:

Functie Beschrijving
ai_corrigeer_grammatica Corrigeer grammaticale fouten in tekst met behulp van een geavanceerde AI-model.
ai_translate Tekst vertalen naar een opgegeven doeltaal met behulp van een geavanceerde AI-model.
ai_summarize Genereer een samenvatting van tekst met behulp van SQL en een geavanceerde AI-model.
ai_mask Met behulp van een geavanceerd AI-model maskeer opgegeven entiteiten in tekst.

Tekst analyseren:

Functie Beschrijving
AI_analyse_sentiment Sentimentanalyse uitvoeren op invoertekst met behulp van een geavanceerd generatief AI-model.
ai_similarity Vergelijk twee tekenreeksen en bereken de semantische overeenkomstenscore met behulp van een geavanceerde AI-model.

Inhoud genereren. Zie Use ai_queryvoor aangepaste prompts of een specifiek model:

Functie Beschrijving
ai_gen Beantwoord een door de gebruiker verstrekte prompt met behulp van een geavanceerd generatief AI-model.

Tijdreeks voorspellen:

Functie Beschrijving
ai_forecast Prognosegegevens tot een opgegeven horizon. Deze tabelwaardefunctie is ontworpen om tijdreeksgegevens in de toekomst te extrapoleren.

Zoeken met Vector Search-insluitingen:

Functie Beschrijving
vector_search Zoek naar een Mozaïek AI Vector Search-index en voer query's uit met behulp van een geavanceerd AI-model.

AI-functies gebruiken in productiewerkstromen

Voor grootschalige batchdeductie kunt u taakspecifieke AI-functies of de functie ai_query voor algemeen gebruik integreren in uw productiewerkstromen, zoals Lakeflow Spark-declaratieve pijplijnen, Databricks-werkstromen en Gestructureerd streamen. Dit maakt verwerking op schaal mogelijk op productieniveau.

Aanbevolen procedures voor AI-functies in productie:

Laat AI-functies uw workload op schaal afhandelen: AI Functions beheert automatisch parallelle uitvoering, nieuwe pogingen en schaalaanpassing. Het is raadzaam om uw volledige gegevensset in één query in te dienen in plaats van deze handmatig te splitsen in kleine batches. Prestaties kunnen mogelijk niet lineair worden geschaald van zeer kleine workloads naar grootschalige workloads.

Databricks-gehoste basismodellen gebruiken: Wanneer u de ai_query AI-functie gebruikt, gebruikt u door Databricks gehoste basismodellen (voorafgegaan door Databricks-), geen ingerichte doorvoer. Deze inrichtingsloze eindpunten worden volledig beheerd en werken het beste voor batchverwerking.

Zie Batch-inferentie-pijplijnen implementeren voor voorbeelden en details.

Voortgang van AI-functies bewaken

Als u wilt weten hoeveel deducties zijn voltooid of mislukt en prestatieproblemen hebben opgelost, kunt u de voortgang van AI-functies bewaken met behulp van de functie queryprofiel.

In Databricks Runtime 16.1 ML en hoger, vanuit het queryvenster van de SQL-editor in uw werkruimte:

  1. Selecteer de koppeling, Wordt uitgevoerd--- onderaan het venster Onbewerkte resultaten . Het prestatievenster wordt rechts weergegeven.
  2. Klik op Queryprofiel weergeven om prestatiedetails weer te geven.
  3. Klik op AI-query om metrische gegevens voor die specifieke query weer te geven, inclusief het aantal voltooide en mislukte deducties en de totale tijd die de aanvraag heeft geduurd.

Kosten voor AI-functieworkloads weergeven

De kosten van ai-functies worden vastgelegd als onderdeel van het MODEL_SERVING product onder het BATCH_INFERENCE aanbiedingstype. Zie Bekijk kosten voor batch-inferentieworkloads voor een voorbeeldquery.

Opmerking

Voor ai_parse_document, ai_extracten ai_classify kosten worden geregistreerd als onderdeel van het AI_FUNCTIONS product. Zie Bekijk kosten voor ai_parse_document uitvoeringen voor een voorbeeldquery.

Kosten voor batch-inferentieworkloads weergeven

In de volgende voorbeelden ziet u hoe u batch-inferencewerkbelastingen filtert op basis van jobs, berekeningsresources, SQL-datawarehouses en Lakeflow Spark Declarative Pipelines.

Zie Monitor kosten van modelbediening voor algemene voorbeelden van hoe u kosten kunt bekijken voor uw batch-inference workloads die gebruikmaken van AI Functions.

Jobs

De volgende query laat zien welke taken worden gebruikt voor batch-inferentie met behulp van de system.workflow.jobs systeemtabel. Zie Taakkosten en prestaties bewaken met systeemtabellen.


SELECT *
FROM system.billing.usage u
  JOIN system.workflow.jobs x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.job_id = x.job_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Compute

Hieronder ziet u welke clusters worden gebruikt voor batchdeductie met behulp van de system.compute.clusters systeemtabel.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Declaratieve Pijplijnen van Lakeflow Spark

Hieronder ziet u welke Lakeflow Spark Declarative Pipelines worden gebruikt voor batch-inferentie met behulp van de system.lakeflow.pipelines systeemtabel.

SELECT *
FROM system.billing.usage u
  JOIN system.lakeflow.pipelines x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.dlt_pipeline_id = x.pipeline_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

SQL Warehouse

Hieronder ziet u welke SQL-warehouses worden gebruikt voor batchdeductie met behulp van de system.compute.warehouses systeemtabel.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Kosten voor ai_parse_document uitvoeringen weergeven

In het volgende voorbeeld ziet u hoe u query's kunt uitvoeren op factureringssysteemtabellen om de kosten voor ai_parse_document uitvoeringen weer te geven.


SELECT *
FROM system.billing.usage u
WHERE u.workspace_id = <workspace_id>
  AND u.billing_origin_product = "AI_FUNCTIONS"
  AND u.product_features.ai_functions.ai_function = "AI_PARSE_DOCUMENT";