Classificatie met AutoML

Gebruik AutoML om automatisch het beste classificatie-algoritme en de hyperparameterconfiguratie te vinden om het label of de categorie van een bepaalde invoer te voorspellen.

classificatieexperiment instellen met de gebruikersinterface

U kunt een classificatieprobleem instellen met behulp van de AutoML-gebruikersinterface met de volgende stappen:

  1. Selecteer Experimenten in de zijbalk.

  2. Selecteer Training starten in de classificatiekaart.

    De AutoML-experiment configureren-pagina wordt weergegeven. Op deze pagina configureert u het AutoML-proces, waarbij u de gegevensset, het probleemtype, de doel- of labelkolom opgeeft die voorspeld moet worden, de metric gebruikt om de uitvoeringen van het experiment te evalueren en te scoren, en de stopvoorwaarden specificeert.

  3. Selecteer in het veld Compute een cluster met Databricks Runtime ML.

  4. Onder Gegevensset, selecteer Bladeren.

  5. Navigeer naar de tabel die u wilt gebruiken en klik op Selecteren. Het tabelschema wordt weergegeven.

    • In Databricks Runtime 10.3 ML en hoger kunt u opgeven welke kolommen AutoML moet gebruiken voor training. U kunt de geselecteerde kolom niet verwijderen als het voorspellingsdoel of de tijdkolom om de gegevens te splitsen.
    • In Databricks Runtime 10.4 LTS ML en hoger kunt u opgeven hoe null-waarden worden toegepast door een optie in de vervolgkeuzelijst Impute met te selecteren. Standaard selecteert AutoML een imputatiemethode op basis van het kolomtype en de inhoud.

    Notitie

    Als u een niet-standaardimplicatiemethode opgeeft, voert AutoML geen semantische typedetectie uit.

  6. Klik in het veld Voorspellingsdoel . Er wordt een vervolgkeuzelijst weergegeven met de kolommen die in het schema worden weergegeven. Selecteer de kolom die u wilt voorspellen in het model.

  7. In het veld Experimentnaam wordt de standaardnaam weergegeven. Als u deze wilt wijzigen, typt u de nieuwe naam in het veld.

U kunt ook het volgende doen:

Geavanceerde configuraties

Open de sectie Geavanceerde configuratie (optioneel) voor toegang tot deze parameters.

  • De metrische evaluatiewaarde is de primaire metriek die wordt gebruikt om de uitvoeringen te beoordelen.
  • In Databricks Runtime 10.4 LTS ML en hoger kunt u trainingsframeworks buiten beschouwing laten. AutoML traint standaard modellen met behulp van frameworks die worden vermeld onder AutoML-algoritmen.
  • U kunt de stopvoorwaarden bewerken. Standaardcondities voor stoppen zijn:
    • Voor het voorspellen van experimenten stopt u na 120 minuten.
    • Stop binnen Databricks Runtime 10.4 LTS ML en lagere versies voor classificatie- en regressie-experimenten na 60 minuten of na het voltooien van 200 proeven, afhankelijk van wat het eerst gebeurt. Voor Databricks Runtime 11.0 ML en hoger wordt het aantal experimenten niet gebruikt als stopvoorwaarde.
    • In Databricks Runtime 10.4 LTS ML en hoger, voor classificatie- en regressieexperimenten, omvat AutoML vroege stop; het stopt met het trainen en afstemmen van modellen als de metrische validatiegegevens niet meer worden verbeterd.
  • In Databricks Runtime 10.4 LTS ML en hoger kunt u een time column optie selecteren om de gegevens te splitsen voor training, validatie en testen in chronologische volgorde (alleen van toepassing op classificatie en regressie).
  • Databricks raadt aan het veld Gegevensmap leeg te laten. Als u dit veld niet invult, wordt het standaardgedrag geactiveerd voor het veilig opslaan van de gegevensset als een MLflow-artefact. Een DBFS-pad kan worden opgegeven, maar in dit geval neemt de gegevensset de toegangsmachtigingen van het AutoML-experiment niet over.

Voer het experiment uit en bewaak de resultaten

Klik op AutoML starten om het AutoML-experiment te starten. Het experiment wordt uitgevoerd en de AutoML-trainingspagina wordt weergegeven. Klik op Vernieuwen om de uitvoeringstabel te verversen.

Voortgang van experiment weergeven

Op deze pagina kunt u het volgende doen:

  • Stop het experiment op elk gewenst moment.
  • Open het notebook voor gegevensverkenning.
  • Monitor uitvoeren.
  • Navigeer naar de uitvoeringspagina voor elke uitvoering.

Met Databricks Runtime 10.1 ML en hoger geeft AutoML waarschuwingen weer voor mogelijke problemen met de gegevensset, zoals niet-ondersteunde kolomtypen of kolommen met hoge kardinaliteit.

Notitie

Databricks doet het beste om potentiƫle fouten of problemen aan te geven. Dit is echter mogelijk niet uitgebreid en legt mogelijk de problemen of fouten die u zoekt niet vast.

Als u waarschuwingen voor de gegevensset wilt zien, klikt u op het tabblad Waarschuwingen op de trainingspagina of op de experimentpagina nadat het experiment is voltooid.

AutoML-waarschuwingen

Resultaten weergeven

Wanneer het experiment is voltooid, kunt u het volgende doen:

  • Registreer en implementeer een van de modellen met MLflow.
  • Selecteer Bekijk notitieblok voor het beste model om het notitieblok dat het beste model heeft gemaakt te bekijken en te bewerken.
  • Selecteer Het notitieblok voor gegevensverkenning weergeven om het notitieblok voor gegevensverkenning te openen.
  • Zoek, filter en sorteer de runs in de runstabel.
  • Zie de details voor elke run:
    • Het gegenereerde notebook met broncode voor een proefuitvoering vindt u door te klikken op de MLflow-uitvoering. Het notebook wordt opgeslagen in de sectie Artefacten van de uitvoeringspagina. U kunt dit notitieblok downloaden en importeren in de werkruimte als het downloaden van artefacten is ingeschakeld door uw werkruimtebeheerders.
    • Als u de uitvoeringsresultaten wilt weergeven, klikt u in de kolom Modellen of de kolom Begintijd . De uitvoeringspagina wordt weergegeven met informatie over de proefversie (zoals parameters, metrische gegevens en tags) en artefacten die door de uitvoering zijn gemaakt, inclusief het model. Deze pagina bevat ook codefragmenten die u kunt gebruiken om voorspellingen te doen met het model.

Als u later wilt terugkeren naar dit AutoML-experiment, zoekt u het in de tabel op de pagina Experimenten. De resultaten van elk AutoML-experiment, inclusief de notebooks voor gegevensverkenning en training, worden opgeslagen in een databricks_automl map in de basismap van de gebruiker die het experiment heeft uitgevoerd.

Een model registreren en implementeren

Registreer en implementeer uw model met behulp van de AutoML-gebruikersinterface. Wanneer een uitvoering is voltooid, wordt in de bovenste rij het beste model weergegeven op basis van de primaire metrische gegevens.

  1. Selecteer de koppeling in de kolom Modellen voor het model dat u wilt registreren.
  2. Selecteer de knop Model registreren om het te registreren bij Unity Catalog of Model Registry.

    Notitie

    Databricks raadt u aan modellen te registreren bij Unity Catalog voor de nieuwste functies.

  3. Na de registratie kunt u het model implementeren op een aangepast model dat het eindpunt bedient.

Geen module met de naam 'pandas.core.indexes.numeric'

Bij het leveren van een model dat is gebouwd met behulp van AutoML en Model Serving, kunt u mogelijk de volgende fout krijgen: No module named 'pandas.core.indexes.numeric.

Dit komt door een incompatibele pandas versie tussen AutoML en het model voor eindpuntomgeving. U kunt deze fout oplossen door het add-pandas-dependency.py script uit te voeren. Het script bewerkt het requirements.txt en conda.yaml voor je gelogde model om de juiste pandas afhankelijkheidsversie in te voegen: pandas==1.5.3

  1. Wijzig het script om de run_id run van de MLflow sessie op te nemen waarin uw model is gelogd.
  2. Registreer het model opnieuw bij Unity Catalog of het modelregister.
  3. Probeer de nieuwe versie van het MLflow-model te leveren.

Volgende stappen