FileDatasetFactory Classe
Contém métodos para criar um conjunto de dados de arquivo para o Azure Machine Learning.
Um FileDataset é criado a partir do from_files método definido nesta classe.
Para obter mais informações sobre como trabalhar com conjuntos de dados de arquivo, consulte o notebook https://aka.ms/filedataset-samplenotebook.
Construtor
FileDatasetFactory()
Métodos
| from_files |
Crie um FileDataset para representar fluxos de arquivo. |
| upload_directory |
Crie um conjunto de dados do diretório de origem. |
from_files
Crie um FileDataset para representar fluxos de arquivo.
static from_files(path, validate=True, partition_format=None, is_file=False)
Parâmetros
| Nome | Description |
|---|---|
|
path
Obrigatório
|
|
|
validate
Obrigatório
|
Indica se os dados podem ser carregados do conjunto de dados retornado. O padrão é True. A validação requer que a fonte de dados esteja acessível a partir da computação atual. |
|
partition_format
Obrigatório
|
Especifique o formato de partição do caminho. O padrão é Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte de formato '{column_name}' cria a coluna de cadeia de caracteres e '{column_name:yyyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, em que 'yyyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundo para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, dado o caminho '.. /Accounts/2019/01/01/data.jsonl' em que a partição é por nome e hora do departamento, partition_format='/{Department}/{PartitionDate:yyyyy/MM/dd}/data.jsonl' cria uma coluna de cadeia de caracteres 'Department' com o valor 'Accounts' e uma coluna de datetime 'PartitionDate' com o valor '2019-01-01'. |
|
is_file
Obrigatório
|
Indica se todos os caminhos de entrada apontam para arquivos. O mecanismo de conjunto de dados, por padrão, tenta verificar se os caminhos de entrada apontam para arquivos. Defina esse sinalizador como True quando todos os caminhos de entrada forem Arquivo para acelerar a criação do conjunto de dados. |
Retornos
| Tipo | Description |
|---|---|
|
Um FileDataset objeto. |
Comentários
from_files cria um objeto de FileDataset classe, que define as operações para carregar fluxos de arquivos do caminho fornecido.
Para que os dados sejam acessíveis pelo Azure Machine Learning, os arquivos especificados devem path estar localizados em um Datastore ou estar acessíveis com URLs da Web públicas ou url de Blob, ADLS Gen1 e ADLS Gen2.
O token do AAD dos usuários será usado no notebook ou programa python local se ele chamar diretamente uma dessas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será usada em trabalhos enviados pelo Experiment.submit para autenticação de acesso a dados. Saiba mais: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Crie um conjunto de dados do diretório de origem.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Parâmetros
| Nome | Description |
|---|---|
|
src_dir
Obrigatório
|
O diretório local a ser carregado. |
|
target
Obrigatório
|
Obrigatório, o caminho do armazenamento de dados no qual os arquivos serão carregados. |
|
pattern
Obrigatório
|
Opcional, se fornecido, filtrará todos os nomes de caminho correspondentes ao padrão fornecido, semelhante ao pacote glob do Python, com suporte a '*', '?' e intervalos de caracteres expressos com []. |
|
show_progress
Obrigatório
|
Opcional, indica se o progresso do upload deve ser mostrado no console. O padrão é True. |
Retornos
| Tipo | Description |
|---|---|
|
O conjunto de dados registrado. |