Bruk ai.classify med pandaer

Funksjonen ai.classify bruker generativ AI for å kategorisere inndatatekst i henhold til egendefinerte etiketter du velger, med en enkelt kodelinje.

Note

Oversikt

Funksjonen ai.classifyutvider pandas Series-klassen . Hvis du vil tilordne brukerleverte etiketter til hver inndatarad, kaller du funksjonen på en tekstkolonne i en pandas DataFrame.

Funksjonen returnerer en pandaserie som inneholder klassifiseringsetiketter, som kan lagres i en ny DataFrame-kolonne.

Tip

Vi anbefaler at du bruker ai.classify-funksjonen med minst to inndataetiketter.

Syntaks

df["classification"] = df["input"].ai.classify("category1", "category2", "category3")

Parametere

Name Beskrivelse
labels
Obligatorisk
Én eller flere strenger som representerer settet med klassifiseringsetiketter som samsvarer med inndatatekstverdier.

Returnerer

Funksjonen returnerer en pandaserie som inneholder en klassifiseringsetikett for hver inndatatekstrad. Hvis en tekstverdi ikke kan klassifiseres, er den tilsvarende etiketten null.

Eksempel

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])

df["category"] = df['descriptions'].ai.classify("kitchen", "bedroom", "garage", "other")
display(df)

Denne eksempelkodecellen gir følgende utdata:

Skjermbilde av en dataramme med «beskrivelser»- og «kategori»-kolonner. «Kategori»-kolonnen viser kategorinavnet for hver beskrivelse.

Multimodal inngang

Funksjonen ai.classify støtter filbasert multimodal input. Du kan klassifisere bilder, PDF-er og tekstfiler ved å sette column_type="path" når kolonnen din inneholder filsti-strenger. Støttede filtyper inkluderer column_type="path" JPG/JPEG, PNG, GIF, WebP (bilder), PDF (dokumenter) og vanlige tekstformater som MD, TXT, CSV, JSON og XML. For mer informasjon om støttede filtyper og oppsett, se Bruk multimodal input med AI-funksjoner.

# This code uses AI. Always review output for mistakes.

file_path_series = aifunc.list_file_paths("/lakehouse/default/Files")
custom_df = pd.DataFrame({"file_path": file_path_series})

custom_df["highest_degree"] = custom_df["file_path"].ai.classify(
    "Master", "PhD", "Bachelor", "Other",
)
display(custom_df)

Note

Når du bruker aifunc.list_file_paths() det til å lage kolonnen for filstien, blir de returnerte yarl.URL objektene automatisk oppdaget som filstier. Du trenger bare å spesifisere column_type="path" når kolonnen din inneholder vanlige streng-URL-er.

Du kan også bruke aifunc.load den til å importere filer fra en mappe til en DataFrame, og deretter klassifisere den resulterende filstikolonnen:

# This code uses AI. Always review output for mistakes.

df, schema = aifunc.load("/lakehouse/default/Files")
df["category"] = df["file_path"].ai.classify("Master", "PhD", "Bachelor", "Other")
display(df)

Når du bruker aifunc.load, inneholder yarl.URL fil-path-kolonnen objekter som automatisk blir oppdaget. For vanlige streng-URL-er, sett column_type="path".

Tip

AI-funksjonenes fremdriftsbar-kostnadskalkulator kan konfigureres med moduser som basic, , eller disable for å gi sanntidsestimater for token- og kapasitetsbruk når den kjøres ai.classify i statsbærbare datamaskiner. For detaljer, se Konfigurer AI-funksjoner.