O que são Conjuntos de dados abertos do Azure e como você pode usá-los?

Os Conjuntos de dados abertos do Azure são conjuntos de dados públicos coletados aos quais você pode adicionar recursos específicos do cenário para soluções de aprendizado de máquina para obter modelos mais precisos. O Conjunto de Dados em Aberto no Azure estão disponíveis na nuvem no Microsoft Azure. Eles são integrados ao Azure Machine Learning e prontamente disponíveis para o Azure Databricks. Você também pode acessar os conjuntos de dados por meio de APIs e usá-los em outros produtos, como o Power BI e o Azure Data Factory.

Os conjuntos de dados incluem dados de domínio público de clima, censo, feriados, segurança pública e localização que ajudam você a treinar os modelos de machine learning e aprimorar as soluções de previsão. Você também pode compartilhar seus conjuntos de dados públicos através de Conjuntos de dados abertos do Azure.

Diagrama que mostra os blocos de construção do serviço Azure Open Datasets.

Coletados, conjuntos de dados preparados

Os conjuntos de dados públicos abertos coletados nos Conjuntos de dados abertos do Azure são otimizados para consumo em fluxos de trabalho de aprendizado de máquina.

Para obter mais informações sobre os conjuntos de dados disponíveis, visite o Catálogo de Conjuntos de Dados Abertos do Azure.

Os cientistas de dados geralmente passam a maior parte do tempo limpando e preparando dados para análise avançada. Para economizar tempo, os conjuntos de dados abertos são copiados para a nuvem do Azure e pré-processados. Em intervalos regulares, os dados são extraídos das fontes,por exemplo, em uma conexão de FTP para a NOAA (National Oceanic and Atmospheric Administration). Em seguida, os dados são analisados em um formato estruturado e aprimorados conforme necessário com recursos como CEP ou local da estação meteorológica mais próxima.

Os conjuntos de dados são hospedados em conjunto com a computação de nuvem do Azure facilitando o acesso e a manipulação.

Aqui estão exemplos de conjuntos de dados disponíveis:

Transporte

Dataset Descrição
Comissão de Táxi & Limusine de NYC - Registros de Viagem de Táxi Amarelo Os registros de viagem de táxi amarelo incluem datas/horas de retirada e entrega, locais de retirada e entrega, distâncias de viagem, tarifas itemizadas, tipos de taxa, tipos de pagamento e contagens de passageiros relatadas pelo motorista.
Comissão de Táxi & Limousine de NYC - registros de viagens de táxi verde Os registros de viagem de táxi verde incluem datas/horas de retirada e entrega, locais de retirada e entrega, distâncias de viagem, tarifas itemizadas, tipos de taxa, tipos de pagamento e contagens de passageiros relatadas pelo motorista.

Trabalho e economia

Dataset Descrição
Estatísticas da Força de Trabalho dos EUA As Estatísticas da Força de Trabalho dos EUA fornecem Estatísticas da Força de Trabalho, taxas de participação da força de trabalho e a população civil não institucional por idade, gênero, raça e grupos étnicos nos Estados Unidos.
Horas nacionais de emprego e ganhos dos EUA O programa CES (Estatísticas Atuais de Emprego) produz estimativas detalhadas do setor de emprego, horas e ganhos não agrícolas de trabalhadores em folhas de pagamento nos Estados Unidos.

Acesso ao conjuntos de dados

Com uma conta do Azure, você pode acessar os conjuntos de dados abertos usando o código ou por meio da interface de serviço do Azure. Os dados são colocados em uso nas suas soluções de aprendizado de máquina por meio dos recursos de computação em nuvem do Azure.

Os Conjuntos de dados abertos estão disponíveis por meio da interface do usuário e do SDK do Azure Machine Learning. Os Conjuntos de dados abertos fornecem notebooks do Azure Notebooks e do Azure Databricks que podem conectar os dados ao Azure Machine Learning e ao Azure Databricks. Os Conjuntos de dados também podem ser acessados por meio de um SDK de Python.

No entanto, você não precisa de uma conta do Azure para acessar o Conjunto de Dados em Aberto no Azure. Você pode acessá-lo em qualquer ambiente do Python com ou sem Spark.

Solicitar ou contribuir com conjuntos de dados

Se você não pode localizar os dados desejados, envie um email para nós para solicitar um conjunto de dados ou contribuir com um conjunto de dados.

Próximas etapas