AdlaStep Klas

Hiermee maakt u een Azure ML-pijplijnstap voor het uitvoeren van een U-SQL-script met Azure Data Lake Analytics.

Zie het notebook https://aka.ms/pl-adlavoor een voorbeeld van het gebruik van deze AdlaStep.

Maak een Azure ML-pijplijnstap om een U-SQL-script uit te voeren met Azure Data Lake Analytics.

Constructor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parameters

Name Description
script_name
Vereist
str

[Vereist] De naam van een U-SQL-script ten opzichte source_directoryvan .

name
str

De naam van de stap. Als dit niet is opgegeven, script_name wordt deze gebruikt.

Default value: None
inputs

Een lijst met invoerpoortbindingen.

Default value: None
outputs

Een lijst met uitvoerpoortbindingen.

Default value: None
params

Een woordenlijst met naam-waardeparen.

Default value: None
degree_of_parallelism
int

De mate van parallelle uitvoering die voor deze taak moet worden gebruikt. Dit moet groter zijn dan 0. Als deze optie is ingesteld op minder dan 0, wordt standaard ingesteld op 1.

Default value: None
priority
int

De prioriteitswaarde die moet worden gebruikt voor de huidige taak. Lagere getallen hebben een hogere prioriteit. Een taak heeft standaard een prioriteit van 1000. De waarde die u opgeeft, moet groter zijn dan 0.

Default value: None
runtime_version
str

De runtimeversie van de Data Lake Analytics-engine.

Default value: None
compute_target

[Vereist] Het ADLA-rekenproces dat voor deze taak moet worden gebruikt.

Default value: None
source_directory
str

Een map die het script, assembly's enzovoort bevat.

Default value: None
allow_reuse

Hiermee wordt aangegeven of de stap vorige resultaten opnieuw moet gebruiken wanneer deze opnieuw wordt uitgevoerd met dezelfde instellingen. Hergebruik is standaard ingeschakeld. Als de inhoud van de stap (scripts/afhankelijkheden) en de invoer en parameters ongewijzigd blijven, wordt de uitvoer van de vorige uitvoering van deze stap opnieuw gebruikt. Wanneer u de stap opnieuw gebruikt, worden de resultaten van de vorige uitvoering onmiddellijk beschikbaar gesteld aan eventuele volgende stappen in plaats van de taak te verzenden om te berekenen. Als u Azure Machine Learning-gegevenssets als invoer gebruikt, wordt hergebruik bepaald door of de definitie van de gegevensset is gewijzigd, niet door of de onderliggende gegevens zijn gewijzigd.

Default value: True
version
str

Optionele versietag om een wijziging in functionaliteit voor de stap aan te geven.

Default value: None
hash_paths

AFGESCHAFT: niet meer nodig.

Een lijst met paden naar hash bij het controleren op wijzigingen in de inhoud van de stap. Als er geen wijzigingen zijn gedetecteerd, gebruikt de pijplijn de stapinhoud van een vorige uitvoering opnieuw. Standaard is de inhoud van hashed, met uitzondering van source_directory bestanden die worden vermeld in .amlignore of .gitignore.

Default value: None
script_name
Vereist
str

[Vereist] De naam van een U-SQL-script ten opzichte source_directoryvan .

name
Vereist
str

De naam van de stap. Als dit niet is opgegeven, script_name wordt deze gebruikt.

inputs
Vereist

Lijst met invoerpoortbindingen

outputs
Vereist
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]

Een lijst met uitvoerpoortbindingen.

params
Vereist

Een woordenlijst met naam-waardeparen.

degree_of_parallelism
Vereist
int

De mate van parallelle uitvoering die voor deze taak moet worden gebruikt. Dit moet groter zijn dan 0. Als deze optie is ingesteld op minder dan 0, wordt standaard ingesteld op 1.

priority
Vereist
int

De prioriteitswaarde die moet worden gebruikt voor de huidige taak. Lagere getallen hebben een hogere prioriteit. Een taak heeft standaard een prioriteit van 1000. De waarde die u opgeeft, moet groter zijn dan 0.

runtime_version
Vereist
str

De runtimeversie van de Data Lake Analytics-engine.

compute_target
Vereist

[Vereist] Het ADLA-rekenproces dat voor deze taak moet worden gebruikt.

source_directory
Vereist
str

Een map die het script, assembly's enzovoort bevat.

allow_reuse
Vereist

Hiermee wordt aangegeven of de stap vorige resultaten opnieuw moet gebruiken wanneer deze opnieuw wordt uitgevoerd met dezelfde instellingen. Hergebruik is standaard ingeschakeld. Als de inhoud van de stap (scripts/afhankelijkheden) en de invoer en parameters ongewijzigd blijven, wordt de uitvoer van de vorige uitvoering van deze stap opnieuw gebruikt. Wanneer u de stap opnieuw gebruikt, worden de resultaten van de vorige uitvoering onmiddellijk beschikbaar gesteld aan eventuele volgende stappen in plaats van de taak te verzenden om te berekenen. Als u Azure Machine Learning-gegevenssets als invoer gebruikt, wordt hergebruik bepaald door of de definitie van de gegevensset is gewijzigd, niet door of de onderliggende gegevens zijn gewijzigd.

version
Vereist
str

Een optionele versietag om een wijziging in de functionaliteit voor de stap aan te geven.

hash_paths
Vereist

AFGESCHAFT: niet meer nodig.

Een lijst met paden naar hash bij het controleren op wijzigingen in de inhoud van de stap. Als er geen wijzigingen zijn gedetecteerd, gebruikt de pijplijn de stapinhoud van een vorige uitvoering opnieuw. Standaard is de inhoud van hashed, met uitzondering van source_directory bestanden die worden vermeld in .amlignore of .gitignore.

Opmerkingen

U kunt @@name@@ syntaxis in uw script gebruiken om te verwijzen naar invoer, uitvoer en params.

  • als de naam de naam is van een invoer- of uitvoerpoortbinding, worden alle exemplaren van @@name@@ in het script vervangen door het werkelijke gegevenspad van een bijbehorende poortbinding.

  • als de naam overeenkomt met een sleutel in de parameterdict , worden alle exemplaren van @@name@@ vervangen door de bijbehorende waarde in dict.

AdlaStep werkt alleen met gegevens die zijn opgeslagen in de standaard Data Lake Storage van het Data Lake Analytics-account. Als de gegevens zich in een niet-standaardopslag bevinden, gebruikt u een DataTransferStep gegevens om de gegevens naar de standaardopslag te kopiëren. U vindt de standaardopslag door uw Data Lake Analytics-account te openen in Azure Portal en vervolgens naar het item Gegevensbronnen te navigeren onder Instellingen in het linkerdeelvenster.

In het volgende voorbeeld ziet u hoe u AdlaStep gebruikt in een Azure Machine Learning-pijplijn.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

Volledig voorbeeld is beschikbaar vanaf https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Methoden

create_node

Maak een knooppunt uit de adlaStep-stap en voeg dit toe aan de opgegeven grafiek.

Deze methode is niet bedoeld om rechtstreeks te worden gebruikt. Wanneer een pijplijn met deze stap wordt geïnstantieerd, worden in Azure ML automatisch de parameters doorgegeven die zijn vereist via deze methode, zodat de stap kan worden toegevoegd aan een pijplijngrafiek die de werkstroom vertegenwoordigt.

create_node

Maak een knooppunt uit de adlaStep-stap en voeg dit toe aan de opgegeven grafiek.

Deze methode is niet bedoeld om rechtstreeks te worden gebruikt. Wanneer een pijplijn met deze stap wordt geïnstantieerd, worden in Azure ML automatisch de parameters doorgegeven die zijn vereist via deze methode, zodat de stap kan worden toegevoegd aan een pijplijngrafiek die de werkstroom vertegenwoordigt.

create_node(graph, default_datastore, context)

Parameters

Name Description
graph
Vereist

Het grafiekobject.

default_datastore
Vereist

Het standaardgegevensarchief.

context
Vereist
<xref:azureml.pipeline.core._GraphContext>

De grafiekcontext.

Retouren

Type Description

Het knooppuntobject.