Vektorsökning Python SDK-exempelanvändning

Öppna notebook-versionen av den här sidan

Den här notebook-filen visar hur du använder SDK för vektorsökning Python, vilket ger en VectorSearchClient som ett primärt API för att arbeta med vektorsökning.

Du kan också anropa REST-API:et direkt.

Kravspecifikation

Den här notebook-filen förutsätter att det finns en modellserverslutpunkt med namnet databricks-gte-large-en . Information om hur du skapar slutpunkten finns i notebook-filen Anropa en GTE-inbäddningsmodell med hjälp av Mosaic AI Model Serving.

%pip install --upgrade --force-reinstall databricks-vectorsearch langchain
dbutils.library.restartPython()

from databricks.vector_search.client import VectorSearchClient

vsc = VectorSearchClient()

help(VectorSearchClient)

Ladda leksaksuppsättning i käll-Delta-tabellen

Följande skapar deltatabellen för källan.


# Specify the catalog and schema to use. You must have USE_CATALOG privilege on the catalog and USE_SCHEMA and CREATE_TABLE privileges on the schema.
# Change the catalog and schema here if necessary.

catalog_name = "main"
schema_name = "default"

source_table_name = "en_wiki"
source_table_fullname = f"{catalog_name}.{schema_name}.{source_table_name}"

# Uncomment if you want to start from scratch.

# spark.sql(f"DROP TABLE {source_table_fullname}")

source_df = spark.read.parquet("/databricks-datasets/wikipedia-datasets/data-001/en_wikipedia/articles-only-parquet").limit(10)
display(source_df)

source_df.write.format("delta").option("delta.enableChangeDataFeed", "true").saveAsTable(source_table_fullname)

display(spark.sql(f"SELECT * FROM {source_table_fullname}"))

Skapa slutpunkt för vektorsökning

vector_search_endpoint_name = "vector-search-demo-endpoint"

vsc.create_endpoint(
    name=vector_search_endpoint_name,
    endpoint_type="STANDARD" # or "STORAGE_OPTIMIZED"
)

endpoint = vsc.get_endpoint(
  name=vector_search_endpoint_name)
endpoint

Skapa vektorindex

# Vector index
vs_index = "en_wiki_index"
vs_index_fullname = f"{catalog_name}.{schema_name}.{vs_index}"

embedding_model_endpoint = "databricks-gte-large-en"

index = vsc.create_delta_sync_index(
  endpoint_name=vector_search_endpoint_name,
  source_table_name=source_table_fullname,
  index_name=vs_index_fullname,
  pipeline_type='TRIGGERED',
  primary_key="id",
  embedding_source_column="text",
  embedding_model_endpoint_name=embedding_model_endpoint
)
index.describe()

Hämta ett vektorindex

Använd get_index() för att hämta vektorindexobjektet med hjälp av vektorindexnamnet. Du kan också använda describe() indexobjektet för att se en sammanfattning av indexets konfigurationsinformation.

index = vsc.get_index(endpoint_name=vector_search_endpoint_name, index_name=vs_index_fullname)

index.describe()

# Wait for index to come online. Expect this command to take several minutes.
import time
while not index.describe().get('status').get('detailed_state').startswith('ONLINE'):
  print("Waiting for index to be ONLINE...")
  time.sleep(5)
print("Index is ONLINE")
index.describe()

Likhetssökning

Fråga Vector Index om du vill hitta liknande dokument.

# Returns [col1, col2, ...]
# You can set this to any subset of the columns.
all_columns = spark.table(source_table_fullname).columns

results = index.similarity_search(
  query_text="Greek myths",
  columns=all_columns,
  num_results=2)

results

# Search with a filter. Note that the syntax depends on the endpoint type.

# Standard endpoint syntax
results = index.similarity_search(
  query_text="Greek myths",
  columns=all_columns,
  filters={"id NOT": ("13770", "88231")},
  num_results=2)

# Storage-optimized endpoint syntax
# results = index.similarity_search(
#   query_text="Greek myths",
#   columns=all_columns,
#   filters='id NOT IN ("13770", "88231")',
#   num_results=2)

results

Konvertera resultat till LangChain-dokument

Den första kolumnen som hämtas läses in i page_contentoch resten till metadata.

from langchain_core.documents import Document
from typing import List

def convert_vector_search_to_documents(results) -> List[Document]:
  column_names = []
  for column in results["manifest"]["columns"]:
      column_names.append(column)

  langchain_docs = []
  for item in results["result"]["data_array"]:
      metadata = {}
      score = item[-1]
      # print(score)
      i = 1
      for field in item[1:-1]:
          # print(field + "--")
          metadata[column_names[i]["name"]] = field
          i = i + 1
      doc = Document(page_content=item[0], metadata=metadata)  # , 9)
      langchain_docs.append(doc)
  return langchain_docs

langchain_docs = convert_vector_search_to_documents(results)

langchain_docs

Ta bort vektorindex

vsc.delete_index(index_name=vs_index_fullname)

Exempelanteckningsbok

Vektorsökning Python SDK-exempelanvändning

Hämta anteckningsbok

Feedback

Var den här sidan till hjälp?

Last updated on 2026-04-25

Vektorsökning Python SDK-exempelanvändning

Kravspecifikation

Ladda leksaksuppsättning i käll-Delta-tabellen

Skapa slutpunkt för vektorsökning

Skapa vektorindex

Hämta ett vektorindex

Likhetssökning

Konvertera resultat till LangChain-dokument

Ta bort vektorindex

Exempelanteckningsbok

Vektorsökning Python SDK-exempelanvändning

Feedback

Ytterligare resurser