Explorar a arte entre cultura e meios com o algoritmo de vizinhos rápidos, condicionais e k-mais próximos

Este artigo descreve a localização de correspondência por meio do algoritmo k-nearest-neighbors. Você cria recursos de código que permitem consultas que envolvem culturas e meios de arte acumulados do Metropolitan Museum of Art em NYC e do Amsterdam Rijksmuseum.

Pré-requisitos

Um bloco de anotações anexado a uma casa no lago. Visite Explorar os dados em seu lakehouse com um bloco de anotações para obter mais informações.

Visão geral do BallTree

O modelo k-NN depende da estrutura de dados BallTree . O BallTree é uma árvore binária recursiva, em que cada nó (ou "bola") contém uma partição ou subconjunto dos pontos de dados que você deseja consultar. Para criar um BallTree, determine o centro de "bola" (com base em um determinado recurso especificado) mais próximo de cada ponto de dados. Em seguida, atribua cada ponto de dados à "bola" mais próxima correspondente. Essas atribuições criam uma estrutura que permite travessias binárias semelhantes a árvores e se presta a encontrar vizinhos k-mais próximos em uma folha BallTree.

Configuração

Importe as bibliotecas necessárias do Python e prepare o conjunto de dados:

from synapse.ml.core.platform import *

if running_on_binder():
    from IPython import get_ipython

from pyspark.sql.types import BooleanType
from pyspark.sql.types import *
from pyspark.ml.feature import Normalizer
from pyspark.sql.functions import lit, array, array_contains, udf, col, struct
from synapse.ml.nn import ConditionalKNN, ConditionalKNNModel
from PIL import Image
from io import BytesIO

import requests
import numpy as np
import matplotlib.pyplot as plt
from pyspark.sql import SparkSession

# Bootstrap Spark Session
spark = SparkSession.builder.getOrCreate()

O conjunto de dados vem de uma tabela que contém informações de arte do Met Museum e do Rijksmuseum. A tabela tem este esquema:

ID: um identificador exclusivo para cada obra de arte específica
- ID de exemplo atendida: 388395
- ID de Rijks de exemplo: SK-A-2344
Título: Título da peça de arte, conforme escrito no banco de dados do museu
Artista: Artista de peças de arte, como escrito no banco de dados do museu
Thumbnail_Url: Localização de uma miniatura JPEG da peça de arte
Image_Url Local da URL do site da imagem da peça de arte, hospedada no site do Met/Rijks
Cultura: Categoria cultura da peça de arte
- Categorias de cultura de exemplo: latino-americano, egípcio, etc.
Classificação: Categoria média da peça de arte
- Categorias médias de exemplo: marcenaria, pinturas etc.
Museum_Page: Link de URL para a peça de arte, hospedada no site do Met/Rijks
Norm_Features: Inserção da imagem da peça de arte
Museu: O museu que hospeda a peça de arte real

# loads the dataset and the two trained conditional k-NN models for querying by medium and culture
df = spark.read.parquet(
    "wasbs://publicwasb@mmlspark.blob.core.windows.net/met_and_rijks.parquet"
)
display(df.drop("Norm_Features"))

Para criar a consulta, defina as categorias

Use dois modelos k-NN: um para cultura e outro para médio:

# mediums = ['prints', 'drawings', 'ceramics', 'textiles', 'paintings', "musical instruments","glass", 'accessories', 'photographs',  "metalwork",
#           "sculptures", "weapons", "stone", "precious", "paper", "woodwork", "leatherwork", "uncategorized"]

mediums = ["paintings", "glass", "ceramics"]

# cultures = ['african (general)', 'american', 'ancient american', 'ancient asian', 'ancient european', 'ancient middle-eastern', 'asian (general)',
#            'austrian', 'belgian', 'british', 'chinese', 'czech', 'dutch', 'egyptian']#, 'european (general)', 'french', 'german', 'greek',
#            'iranian', 'italian', 'japanese', 'latin american', 'middle eastern', 'roman', 'russian', 'south asian', 'southeast asian',
#            'spanish', 'swiss', 'various']

cultures = ["japanese", "american", "african (general)"]

# Uncomment the above for more robust and large scale searches!

classes = cultures + mediums

medium_set = set(mediums)
culture_set = set(cultures)
selected_ids = {"AK-RBK-17525-2", "AK-MAK-1204", "AK-RAK-2015-2-9"}

small_df = df.where(
    udf(
        lambda medium, culture, id_val: (medium in medium_set)
        or (culture in culture_set)
        or (id_val in selected_ids),
        BooleanType(),
    )("Classification", "Culture", "id")
)

small_df.count()

Definir e ajustar modelos de k-NN condicionais

Crie modelos k-NN condicionais para as colunas média e de cultura. Cada modelo usa

uma coluna de saída
uma coluna de recursos (vetor de recurso)
uma coluna de valores (valores de célula na coluna de saída)
uma coluna de rótulo (a qualidade em que o respectivo k-NN está condicionado)

medium_cknn = (
    ConditionalKNN()
    .setOutputCol("Matches")
    .setFeaturesCol("Norm_Features")
    .setValuesCol("Thumbnail_Url")
    .setLabelCol("Classification")
    .fit(small_df)
)

culture_cknn = (
    ConditionalKNN()
    .setOutputCol("Matches")
    .setFeaturesCol("Norm_Features")
    .setValuesCol("Thumbnail_Url")
    .setLabelCol("Culture")
    .fit(small_df)
)

Definir métodos de correspondência e visualização

Após a configuração inicial do conjunto de dados e da categoria, prepare os métodos para consultar e visualizar os resultados do k-NN condicional:

addMatches() cria um Dataframe com um punhado de correspondências por categoria:

def add_matches(classes, cknn, df):
    results = df
    for label in classes:
        results = cknn.transform(
            results.withColumn("conditioner", array(lit(label)))
        ).withColumnRenamed("Matches", "Matches_{}".format(label))
    return results

plot_urls() chama plot_img para visualizar as principais correspondências de cada categoria em uma grade:

def plot_img(axis, url, title):
    try:
        response = requests.get(url)
        img = Image.open(BytesIO(response.content)).convert("RGB")
        axis.imshow(img, aspect="equal")
    except:
        pass
    if title is not None:
        axis.set_title(title, fontsize=4)
    axis.axis("off")


def plot_urls(url_arr, titles, filename):
    nx, ny = url_arr.shape

    plt.figure(figsize=(nx * 5, ny * 5), dpi=1600)
    fig, axes = plt.subplots(ny, nx)

    # reshape required in the case of 1 image query
    if len(axes.shape) == 1:
        axes = axes.reshape(1, -1)

    for i in range(nx):
        for j in range(ny):
            if j == 0:
                plot_img(axes[j, i], url_arr[i, j], titles[i])
            else:
                plot_img(axes[j, i], url_arr[i, j], None)

    plt.savefig(filename, dpi=1600)  # saves the results as a PNG

    display(plt.show())

Montar tudo

Para aceitar

os dados
os modelos k-NN condicionais
os valores de ID de arte a serem consultados
o caminho do arquivo em que a visualização de saída é salva

definir uma função chamada test_all()

Os modelos de média e cultura foram previamente treinados e carregados.

# main method to test a particular dataset with two conditional k-NN models and a set of art IDs, saving the result to filename.png

def test_all(data, cknn_medium, cknn_culture, test_ids, root):
    is_nice_obj = udf(lambda obj: obj in test_ids, BooleanType())
    test_df = data.where(is_nice_obj("id"))

    results_df_medium = add_matches(mediums, cknn_medium, test_df)
    results_df_culture = add_matches(cultures, cknn_culture, results_df_medium)

    results = results_df_culture.collect()

    original_urls = [row["Thumbnail_Url"] for row in results]

    culture_urls = [
        [row["Matches_{}".format(label)][0]["value"] for row in results]
        for label in cultures
    ]
    culture_url_arr = np.array([original_urls] + culture_urls)[:, :]
    plot_urls(culture_url_arr, ["Original"] + cultures, root + "matches_by_culture.png")

    medium_urls = [
        [row["Matches_{}".format(label)][0]["value"] for row in results]
        for label in mediums
    ]
    medium_url_arr = np.array([original_urls] + medium_urls)[:, :]
    plot_urls(medium_url_arr, ["Original"] + mediums, root + "matches_by_medium.png")

    return results_df_culture

Demo

A célula a seguir executa consultas em lote, considerando as IDs de imagem desejadas e um nome de arquivo para salvar a visualização.

# sample query
result_df = test_all(small_df, medium_cknn, culture_cknn, selected_ids, root=".")

Comentários

Esta página foi útil?

Last updated on 2025-04-05