FileDatasetFactory Classe

Contém métodos para criar um conjunto de dados de arquivo para o Azure Machine Learning.

Um FileDataset é criado a partir do from_files método definido nesta classe.

Para obter mais informações sobre como trabalhar com conjuntos de dados de arquivo, consulte o notebook https://aka.ms/filedataset-samplenotebook.

Construtor

FileDatasetFactory()

Métodos

from_files	Crie um FileDataset para representar fluxos de arquivo.
upload_directory	Crie um conjunto de dados do diretório de origem.

from_files

Crie um FileDataset para representar fluxos de arquivo.

static from_files(path, validate=True, partition_format=None, is_file=False)

Parâmetros

Nome	Description
path Obrigatório	Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]] O caminho para os arquivos de origem, que podem ser um único valor ou lista de cadeia de caracteres de URL (http[s]\|abfs[s]\|wasb[s]), DataPath objeto ou tupla de Datastore e caminho relativo. Observe que a lista de caminhos não pode incluir urls e repositórios de dados juntos.
validate Obrigatório	bool Indica se os dados podem ser carregados do conjunto de dados retornado. O padrão é True. A validação requer que a fonte de dados esteja acessível a partir da computação atual.
partition_format Obrigatório	str Especifique o formato de partição do caminho. O padrão é Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte de formato '{column_name}' cria a coluna de cadeia de caracteres e '{column_name:yyyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, em que 'yyyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado o caminho '.. /Accounts/2019/01/01/data.jsonl' em que a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyyy/MM/dd}/data.jsonl' cria uma coluna de cadeia de caracteres 'Department' com o valor 'Accounts' e uma coluna de datetime 'PartitionDate' com o valor '2019-01-01'.
is_file Obrigatório	bool Indica se todos os caminhos de entrada apontam para arquivos. O mecanismo de conjunto de dados, por padrão, tenta verificar se os caminhos de entrada apontam para arquivos. Defina esse sinalizador como True quando todos os caminhos de entrada forem Arquivo para acelerar a criação do conjunto de dados.

Retornos

Tipo	Description
FileDataset	Um FileDataset objeto.

Comentários

from_files cria um objeto de FileDataset classe, que define as operações para carregar fluxos de arquivos do caminho fornecido.

Para que os dados sejam acessíveis pelo Azure Machine Learning, os arquivos especificados devem path estar localizados em um Datastore ou estar acessíveis com URLs da Web públicas ou url de Blob, ADLS Gen1 e ADLS Gen2.

O token do AAD dos usuários será usado no notebook ou programa python local se ele chamar diretamente uma dessas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo Experiment.submit para autenticação de acesso a dados. Saiba mais: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

Crie um conjunto de dados do diretório de origem.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

Parâmetros

Nome	Description
src_dir Obrigatório	str O diretório local a ser carregado.
target Obrigatório	Union[DataPath, Datastore, tuple(Datastore, str)] Obrigatório, o caminho do armazenamento de dados no qual os arquivos serão carregados.
pattern Obrigatório	str Opcional, se fornecido, filtrará todos os nomes de caminho correspondentes ao padrão fornecido, semelhante ao pacote glob do Python, com suporte a '*', '?' e intervalos de caracteres expressos com [].
show_progress Obrigatório	bool Opcional, indica se o progresso do upload deve ser mostrado no console. O padrão é True.

Retornos

Tipo	Description
FileDataset	O conjunto de dados registrado.

Comentários

Esta página foi útil?