AdlaStep Klas

Hiermee maakt u een Azure ML-pijplijnstap voor het uitvoeren van een U-SQL-script met Azure Data Lake Analytics.

Zie het notebook https://aka.ms/pl-adlavoor een voorbeeld van het gebruik van deze AdlaStep.

Maak een Azure ML-pijplijnstap om een U-SQL-script uit te voeren met Azure Data Lake Analytics.

Constructor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parameters

Name	Description
script_name Vereist	str [Vereist] De naam van een U-SQL-script ten opzichte `source_directory`van .
name	str De naam van de stap. Als dit niet is opgegeven, `script_name` wordt deze gebruikt. Default value: None
inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Een lijst met invoerpoortbindingen. Default value: None
outputs	list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]] Een lijst met uitvoerpoortbindingen. Default value: None
params	dict Een woordenlijst met naam-waardeparen. Default value: None
degree_of_parallelism	int De mate van parallelle uitvoering die voor deze taak moet worden gebruikt. Dit moet groter zijn dan 0. Als deze optie is ingesteld op minder dan 0, wordt standaard ingesteld op 1. Default value: None
priority	int De prioriteitswaarde die moet worden gebruikt voor de huidige taak. Lagere getallen hebben een hogere prioriteit. Een taak heeft standaard een prioriteit van 1000. De waarde die u opgeeft, moet groter zijn dan 0. Default value: None
runtime_version	str De runtimeversie van de Data Lake Analytics-engine. Default value: None
compute_target	AdlaCompute, str [Vereist] Het ADLA-rekenproces dat voor deze taak moet worden gebruikt. Default value: None
source_directory	str Een map die het script, assembly's enzovoort bevat. Default value: None
allow_reuse	bool Hiermee wordt aangegeven of de stap vorige resultaten opnieuw moet gebruiken wanneer deze opnieuw wordt uitgevoerd met dezelfde instellingen. Hergebruik is standaard ingeschakeld. Als de inhoud van de stap (scripts/afhankelijkheden) en de invoer en parameters ongewijzigd blijven, wordt de uitvoer van de vorige uitvoering van deze stap opnieuw gebruikt. Wanneer u de stap opnieuw gebruikt, worden de resultaten van de vorige uitvoering onmiddellijk beschikbaar gesteld aan eventuele volgende stappen in plaats van de taak te verzenden om te berekenen. Als u Azure Machine Learning-gegevenssets als invoer gebruikt, wordt hergebruik bepaald door of de definitie van de gegevensset is gewijzigd, niet door of de onderliggende gegevens zijn gewijzigd. Default value: True
version	str Optionele versietag om een wijziging in functionaliteit voor de stap aan te geven. Default value: None
hash_paths	list AFGESCHAFT: niet meer nodig. Een lijst met paden naar hash bij het controleren op wijzigingen in de inhoud van de stap. Als er geen wijzigingen zijn gedetecteerd, gebruikt de pijplijn de stapinhoud van een vorige uitvoering opnieuw. Standaard is de inhoud van hashed, met uitzondering van `source_directory` bestanden die worden vermeld in .amlignore of .gitignore. Default value: None
script_name Vereist	str [Vereist] De naam van een U-SQL-script ten opzichte `source_directory`van .
name Vereist	str De naam van de stap. Als dit niet is opgegeven, `script_name` wordt deze gebruikt.
inputs Vereist	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Lijst met invoerpoortbindingen
outputs Vereist	list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]] Een lijst met uitvoerpoortbindingen.
params Vereist	dict Een woordenlijst met naam-waardeparen.
degree_of_parallelism Vereist	int De mate van parallelle uitvoering die voor deze taak moet worden gebruikt. Dit moet groter zijn dan 0. Als deze optie is ingesteld op minder dan 0, wordt standaard ingesteld op 1.
priority Vereist	int De prioriteitswaarde die moet worden gebruikt voor de huidige taak. Lagere getallen hebben een hogere prioriteit. Een taak heeft standaard een prioriteit van 1000. De waarde die u opgeeft, moet groter zijn dan 0.
runtime_version Vereist	str De runtimeversie van de Data Lake Analytics-engine.
compute_target Vereist	AdlaCompute, str [Vereist] Het ADLA-rekenproces dat voor deze taak moet worden gebruikt.
source_directory Vereist	str Een map die het script, assembly's enzovoort bevat.
allow_reuse Vereist	bool Hiermee wordt aangegeven of de stap vorige resultaten opnieuw moet gebruiken wanneer deze opnieuw wordt uitgevoerd met dezelfde instellingen. Hergebruik is standaard ingeschakeld. Als de inhoud van de stap (scripts/afhankelijkheden) en de invoer en parameters ongewijzigd blijven, wordt de uitvoer van de vorige uitvoering van deze stap opnieuw gebruikt. Wanneer u de stap opnieuw gebruikt, worden de resultaten van de vorige uitvoering onmiddellijk beschikbaar gesteld aan eventuele volgende stappen in plaats van de taak te verzenden om te berekenen. Als u Azure Machine Learning-gegevenssets als invoer gebruikt, wordt hergebruik bepaald door of de definitie van de gegevensset is gewijzigd, niet door of de onderliggende gegevens zijn gewijzigd.
version Vereist	str Een optionele versietag om een wijziging in de functionaliteit voor de stap aan te geven.
hash_paths Vereist	list AFGESCHAFT: niet meer nodig. Een lijst met paden naar hash bij het controleren op wijzigingen in de inhoud van de stap. Als er geen wijzigingen zijn gedetecteerd, gebruikt de pijplijn de stapinhoud van een vorige uitvoering opnieuw. Standaard is de inhoud van hashed, met uitzondering van `source_directory` bestanden die worden vermeld in .amlignore of .gitignore.

Opmerkingen

U kunt @@name@@ syntaxis in uw script gebruiken om te verwijzen naar invoer, uitvoer en params.

als de naam de naam is van een invoer- of uitvoerpoortbinding, worden alle exemplaren van @@name@@ in het script vervangen door het werkelijke gegevenspad van een bijbehorende poortbinding.
als de naam overeenkomt met een sleutel in de parameterdict , worden alle exemplaren van @@name@@ vervangen door de bijbehorende waarde in dict.

AdlaStep werkt alleen met gegevens die zijn opgeslagen in de standaard Data Lake Storage van het Data Lake Analytics-account. Als de gegevens zich in een niet-standaardopslag bevinden, gebruikt u een DataTransferStep gegevens om de gegevens naar de standaardopslag te kopiëren. U vindt de standaardopslag door uw Data Lake Analytics-account te openen in Azure Portal en vervolgens naar het item Gegevensbronnen te navigeren onder Instellingen in het linkerdeelvenster.

In het volgende voorbeeld ziet u hoe u AdlaStep gebruikt in een Azure Machine Learning-pijplijn.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

Volledig voorbeeld is beschikbaar vanaf https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Methoden

create_node

Maak een knooppunt uit de adlaStep-stap en voeg dit toe aan de opgegeven grafiek.

Deze methode is niet bedoeld om rechtstreeks te worden gebruikt. Wanneer een pijplijn met deze stap wordt geïnstantieerd, worden in Azure ML automatisch de parameters doorgegeven die zijn vereist via deze methode, zodat de stap kan worden toegevoegd aan een pijplijngrafiek die de werkstroom vertegenwoordigt.

create_node

Maak een knooppunt uit de adlaStep-stap en voeg dit toe aan de opgegeven grafiek.

create_node(graph, default_datastore, context)

Parameters

Name	Description
graph Vereist	Graph Het grafiekobject.
default_datastore Vereist	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] Het standaardgegevensarchief.
context Vereist	<xref:azureml.pipeline.core._GraphContext> De grafiekcontext.

Retouren

Type	Description
Node	Het knooppuntobject.

Feedback

Is deze pagina nuttig?