Use ai.classify com pandas

A ai.classify função usa IA generativa para categorizar o texto de entrada de acordo com rótulos personalizados que você escolher, com uma única linha de código.

Observação

Visão geral

A função ai.classify estende a classe pandas Series. Para atribuir rótulos fornecidos pelo usuário a cada linha de entrada, chame a função em uma coluna de texto de um DataFrame pandas.

A função retorna uma Série de Pandas que contém rótulos de classificação, que podem ser armazenados numa nova coluna do DataFrame.

Sugestão

Recomendamos o uso da função ai.classify com pelo menos dois rótulos de entrada.

Sintaxe

df["classification"] = df["input"].ai.classify("category1", "category2", "category3")

Parâmetros

Nome Description
labels
Obrigatório
Uma ou mais cadeias de caracteres que representam o conjunto de etiquetas de classificação a serem correspondidos aos valores de texto de entrada.

Devoluções

A função retorna um pandas Series que contém um rótulo de classificação para cada linha de texto de entrada. Se um valor de texto não puder ser classificado, o rótulo correspondente será null.

Example

# This code uses AI. Always review output for mistakes.

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])

df["category"] = df['descriptions'].ai.classify("kitchen", "bedroom", "garage", "other")
display(df)

Esta célula de código de exemplo fornece a seguinte saída:

Captura de ecrã de uma moldura de dados com colunas 'descrições' e 'categoria'. A coluna «categoria» indica o nome da categoria de cada descrição.

Entrada multimodal

A ai.classify função suporta entrada multimodal baseada em ficheiros. Pode classificar imagens, PDFs e ficheiros de texto definindo column_type="path" quando a sua coluna contém as cadeias de caminho dos ficheiros. Os tipos de ficheiros suportados incluem column_type="path" JPG/JPEG, PNG, GIF, WebP (imagens), PDF (documentos) e formatos de texto comuns como MD, TXT, CSV, JSON e XML. Para mais informações sobre tipos de ficheiros suportados e configuração, veja Usar entrada multimodal com funções de IA.

# This code uses AI. Always review output for mistakes.

file_path_series = aifunc.list_file_paths("/lakehouse/default/Files")
custom_df = pd.DataFrame({"file_path": file_path_series})

custom_df["highest_degree"] = custom_df["file_path"].ai.classify(
    "Master", "PhD", "Bachelor", "Other",
)
display(custom_df)

Observação

Quando usa aifunc.list_file_paths() para criar a sua coluna de caminho de ficheiro, os objetos devolvidos yarl.URL são automaticamente detetados como caminhos de ficheiro. Só precisa de especificar column_type="path" quando a sua coluna contém URLs de string simples.

Também pode usar aifunc.load para ingerir ficheiros de uma pasta numa DataFrame e depois classificar a coluna resultante do caminho do ficheiro:

# This code uses AI. Always review output for mistakes.

df, schema = aifunc.load("/lakehouse/default/Files")
df["category"] = df["file_path"].ai.classify("Master", "PhD", "Bachelor", "Other")
display(df)

Quando usa aifunc.load, a coluna do caminho do ficheiro contém yarl.URL objetos que são automaticamente detetados. Para URLs de strings simples, defina column_type="path".

Sugestão

O calculador de custos da barra de progresso das funções de IA pode ser configurado com modos como basic, stats ou disable para fornecer estimativas em tempo real de utilização de tokens e capacidade ao executar ai.classify em cadernos. Para mais detalhes, consulte Configurar funções de IA.