Databricks-funktionslager

Den här sidan är en översikt över tillgängliga funktioner när du använder Databricks Feature Store med Unity Catalog.

Databricks Feature Store innehåller ett centralt register för funktioner som används i dina AI- och ML-modeller. Funktionstabeller och modeller är registrerade i Unity Catalog, vilket ger inbyggd styrning, härkomst och funktionsdelning och upptäckt över olika arbetsytor. Med Databricks sker hela modellträningsarbetsflödet på en enda plattform, inklusive:

  • Datapipelines som matar in rådata, skapar funktionstabeller, tränar modeller och utför batchinferens.
  • Modell- och funktionstjänstslutpunkter som är tillgängliga med ett enda klick och som erbjuder millisekunders svarstid.
  • Data- och modellövervakning.

När du använder funktioner från Databricks Feature Store för att träna modeller spårar modellen automatiskt ursprung till de funktioner som användes i träningen. Vid inferensen söker modellen automatiskt upp de senaste funktionsvärdena. Databricks Feature Store tillhandahåller även beräkning på begäran av funktioner för realtidsprogram som hanterar alla uppgifter för funktionsberäkning. Detta eliminerar träning/serveringssnedvridning, vilket säkerställer att funktionsberäkningarna som används vid slutsatsdragning är desamma som de som används under modellträningen. Det förenklar också koden på klientsidan avsevärt, eftersom alla funktionssökningar och beräkningar hanteras av Databricks Feature Store.

Anmärkning

Den här sidan beskriver Databricks Feature Store för arbetsytor som är aktiverade för Unity Catalog. Om din arbetsyta inte är aktiverad för Unity Catalog, se Funktionslager för arbetsytor (inaktuell).

Begreppsmässig översikt

En översikt över hur Databricks Feature Store fungerar och en ordlista med termer finns i Översikt över funktionslager och ordlista.

Utveckla funktioner

Feature Description
Funktionstabeller Skapa och arbeta med funktionstabeller.

Identifiera och dela funktioner

Feature Description
Utforska funktioner i Unity Catalog Utforska och hantera funktionstabeller med hjälp av Catalog Explorer och funktionsgränssnittet.
Använda taggar med funktionstabeller och funktioner i Unity Catalog Använd enkla nyckel/värde-par för att kategorisera och hantera dina funktionstabeller och funktioner.

Använda funktioner i träningsarbetsflöden

Feature Description
Träna modeller med egenskapstabeller Använd funktioner för att träna modeller.
Funktionsegenskaps-anslutningar vid tidpunkt Använd ögonblicksnoggrannhet för att skapa ett träningsdataset som avspeglar funktionsvärdena vid tidpunkten då en etikettobservation registrerades.
Python-API Python API-referens

Tillhandahålla funktioner

Feature Description
Databricks Online Feature Store Hantera funktionsdata till onlineprogram och maskininlärningsmodeller i realtid. Drivs av Databricks Lakebase.
Modellservering med automatisk funktionssökning Leta automatiskt upp funktionsvärden från en onlinebutik.
Funktionsdistributionens slutpunkter Leverera egenskaper till modeller och applikationer utanför Databricks.
Funktionsberäkning på begäran Beräkna funktionsvärden vid tidpunkten för slutsatsdragningen.

Funktionsstyrning och härkomst

Feature Description
Funktionsstyrning och ursprung Använd Unity Catalog för att styra åtkomsten till funktionstabeller och visa ursprunget för en funktionstabell, modell eller funktion.

Handledningar

Tutorial Description
Exempel på anteckningsböcker för att komma igång Grundläggande notebook. Visar hur du skapar en funktionstabell, använder den för att träna en modell och kör batchbedömning med hjälp av automatisk funktionssökning. Visar även användargränssnittet för funktionsutveckling för att söka efter funktioner och visa ursprung.
Taxi exempeldokument. Visar processen att skapa funktioner, uppdatera dem och använda dem för modellträning och batchinferens.
Exempel: Distribuera och fråga en funktion som betjänar slutpunkten Självstudier och exempel på notebook-filer som visar hur du distribuerar och frågar en funktion som betjänar slutpunkten.
Exempel: använda funktioner med strukturerade RAG-program Självstudie som visar hur du använder onlinetabeller och slutpunkter för funktionstjänster i Databricks för applikationer med hämtning förstärkt generering (RAG).

Krav

Om du vill använda Databricks Feature Store måste arbetsytan vara aktiverad för Unity Catalog. Om din arbetsyta inte är aktiverad för Unity Catalog, se Funktionslager för arbetsytor (inaktuell).

Datatyper som stöds

Databricks Feature Store och äldre Funktionslager för arbetsytor stöder följande PySpark-datatyper:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryType, DecimalTypeoch MapType stöds i alla versioner av Funktionsutveckling i Unity Catalog och i Workspace Feature Store v0.3.5 eller senare. [2] StructType stöds i Feature Engineering v0.6.0 eller senare.

De datatyper som anges ovan stöder funktionstyper som är vanliga i maskininlärningsprogram. Till exempel:

  • Du kan lagra kompakta vektorer, tensorer och inbäddningar som ArrayType.
  • Du kan lagra glesa vektorer, tensorer och inbäddningar som MapType.
  • Du kan lagra text som StringType.

När funktionerna ArrayType och MapType publiceras i onlinebutiker lagras de i JSON-format.

Användargränssnittet för Feature Store visar metadata för funktionsdatatyper:

Exempel på komplexa datatyper

Mer information

Mer information om metodtips finns i Den omfattande guiden till funktionsbutiker.