Uso de ai.classify con pandas

La ai.classify función usa ia generativa para clasificar el texto de entrada según las etiquetas personalizadas que elija, con una sola línea de código.

Nota:

Información general

La función ai.classify extiende la clase de la serie de pandas. Para asignar etiquetas proporcionadas por el usuario a cada fila de entrada, llame a la función en una columna de texto de un DataFrame de Pandas.

La función devuelve una serie de pandas que contiene etiquetas de clasificación, que se pueden almacenar en una nueva columna DataFrame.

Sugerencia

Se recomienda usar la función ai.classify con al menos dos etiquetas de entrada.

Syntax

df["classification"] = df["input"].ai.classify("category1", "category2", "category3")

Parámetros

Nombre Description
labels
Obligatorio
Una o varias cadenas que representan el conjunto de etiquetas de clasificación para que coincidan con los valores de texto de entrada.

Devoluciones

La función devuelve una serie de pandas que contiene una etiqueta de clasificación para cada fila de texto de entrada. Si no se puede clasificar un valor de texto, la etiqueta correspondiente es null.

Example

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])

df["category"] = df['descriptions'].ai.classify("kitchen", "bedroom", "garage", "other")
display(df)

Esta celda de código de ejemplo proporciona la siguiente salida:

Captura de pantalla de una trama de datos con columnas

Entrada multimodal

La ai.classify función admite la entrada bidireccional basada en archivos. Puede clasificar imágenes, archivos PDF y archivos de texto estableciendo column_type="path" cuando su columna contiene cadenas de ruta de acceso de archivo. Los tipos de archivo admitidos para column_type="path" incluyen JPG/JPEG, PNG, GIF, WebP (imágenes), PDF (documentos) y formatos de texto comunes, como MD, TXT, CSV, JSON y XML. Para obtener más información sobre los tipos de archivo admitidos y la configuración, consulte Uso de la entrada multimodal con funciones de IA.

# This code uses AI. Always review output for mistakes.

file_path_series = aifunc.list_file_paths("/lakehouse/default/Files")
custom_df = pd.DataFrame({"file_path": file_path_series})

custom_df["highest_degree"] = custom_df["file_path"].ai.classify(
    "Master", "PhD", "Bachelor", "Other",
)
display(custom_df)

Nota:

Cuando usas aifunc.list_file_paths() para crear la columna de ruta de acceso de archivo, los objetos devueltos yarl.URL se detectan automáticamente como rutas de acceso de archivo. Solo tiene que especificar column_type="path" cuando la columna contiene URLs de cadenas de texto simples.

También puede usar aifunc.load para ingerir archivos de una carpeta en un DataFrame y, a continuación, clasificar la columna de ruta de acceso del archivo resultante:

# This code uses AI. Always review output for mistakes.

df, schema = aifunc.load("/lakehouse/default/Files")
df["category"] = df["file_path"].ai.classify("Master", "PhD", "Bachelor", "Other")
display(df)

Cuando se usa aifunc.load, la columna file-path contiene yarl.URL objetos que se detectan automáticamente. Para las direcciones URL de cadena sin formato, establezca column_type="path".

Sugerencia

La calculadora de costos de funciones IA en la barra de progreso se puede configurar con modos como basic, stats o disable para proporcionar estimaciones de uso de tokens y capacidad en tiempo real al ejecutar ai.classify en notebooks. Para más información, consulte Configuración de funciones de IA.