Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
De ai.embed functie maakt gebruik van generatieve AI om tekst te converteren naar vector-insluitingen. Deze vectoren laten AI de relaties tussen teksten begrijpen, zodat u inhoud kunt zoeken, groeperen en vergelijken op basis van betekenis in plaats van exacte formulering. Met één regel code kunt u vector-insluitingen genereren vanuit een kolom in een DataFrame.
Opmerking
- In dit artikel wordt het gebruik van ai.embed met PySpark behandeld. Zie dit artikel voor het gebruik van ai.embed met pandas.
- Zie andere AI-functies in dit overzichtsartikel.
- Meer informatie over het aanpassen van de configuratie van AI-functies.
Overzicht
De ai.embed functie is beschikbaar voor Spark DataFrames. U moet de naam van een bestaande invoerkolom opgeven als parameter.
De functie retourneert een nieuw DataFrame met insluitingen voor elke rij invoertekst in een uitvoerkolom.
Syntaxis
df.ai.embed(input_col="col1", output_col="embed")
Parameterwaarden
| Naam | Description |
|---|---|
input_col Verplicht |
Een tekenreeks met de naam van een bestaande kolom met invoertekstwaarden die moeten worden gebruikt voor het berekenen van insluitingen. |
output_col Optioneel |
Een tekenreeks die de naam van een nieuwe kolom bevat voor het opslaan van berekende insluitingen voor elke invoertekstrij. Als u deze parameter niet instelt, wordt er een standaardnaam gegenereerd voor de uitvoerkolom. |
error_col Optioneel |
Een tekenreeks met de naam van een nieuwe kolom waarin eventuele OpenAI-fouten worden opgeslagen die het gevolg zijn van het verwerken van elke invoertekstrij. Als u deze parameter niet instelt, wordt er een standaardnaam gegenereerd voor de foutkolom. Als een invoerrij geen fouten bevat, heeft deze kolom een null waarde. |
Retouren
De functie retourneert een Spark DataFrame met een nieuwe kolom met gegenereerde insluitingen voor elke invoertekstrij. Insluitingen zijn van het type [pyspark.ml.linalg.DenseVector])https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.linalg.DenseVector.html#densevector). Het aantal elementen in de DenseVector is afhankelijk van de afmetingen van het insluitmodel, die kunnen worden geconfigureerd in AI-functies
Example
# This code uses AI. Always review output for mistakes.
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.
df = spark.createDataFrame([
("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
], ["descriptions"])
embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)
Deze voorbeeldcodecel biedt de volgende uitvoer:
Verwante inhoud
Gevoel detecteren met ai.analyze_sentiment.
Tekst categoriseren met ai.classify.
Entiteiten extraheren met ai_extract.
Grammatica herstellen met ai.fix_grammar.
Beantwoord aangepaste gebruikersprompts met ai.generate_response.
Bereken overeenkomsten met ai.similarity.
Vat tekst samen met ai.summarize.
Tekst vertalen met ai.translate.
Meer informatie over de volledige set AI-functies.
De configuratie van AI-functies aanpassen.
Hebben we een functie gemist die u nodig hebt? Stel het voor op het Fabric Ideas-forum.