Plataformas de dados suportadas na Máquina Virtual de Ciência de Dados

Com uma Máquina Virtual de Ciência de Dados (DSVM), pode construir os seus recursos de análise numa vasta gama de plataformas de dados. Além de interfaces para plataformas de dados remotas, a DSVM fornece uma instância local para desenvolvimento rápido e prototipagem.

A DSVM suporta estas ferramentas de plataforma de dados:

SQL Server Edição para Desenvolvedores

Categoria Valor
O que é? Uma instância de banco de dados relacional local
Edições DSVM suportadas Windows 2019, Linux (SQL Server 2019)
Utilizações típicas
  • Desenvolvimento local rápido, com um conjunto de dados mais pequeno
  • Executar R no ambiente de banco de dados
Links para exemplos
  • Uma pequena amostra de um conjunto de dados da cidade de Nova York é carregada no banco de dados SQL:
    nyctaxi
  • Encontre uma amostra Jupyter que mostre o Microsoft Machine Learning Server e análise na base de dados em:
    ~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb
Ferramentas relacionadas na DSVM
  • SQL Server Management Studio
  • Drivers ODBC/JDBC
  • pyodbc, RODBC

Nota

O SQL Server Developer Edition pode ser usado apenas para fins de desenvolvimento e teste. Precisas de uma licença ou de uma das VMs do SQL Server para o correr em produção.

Nota

O suporte para Machine Learning Server Standalone terminou a 1 de julho de 2021. Foi removida das imagens DSVM a 30 de junho de 2021. As implementações existentes continuam a ter acesso ao software, mas o suporte terminou após 1 de julho de 2021.

Nota

O SQL Server Developer Edition foi removido das imagens DSVM em novembro de 2021. As implementações existentes continuam a ter o SQL Server Developer Edition instalado. Em novas implementações, para aceder ao SQL Server Developer Edition, instale-o e utilize-o através do suporte ao Docker. Visite Início Rápido: Executar imagens de contêineres do SQL Server com o Docker para mais informações.

Windows

Configuração

O servidor de base de dados já está pré-configurado, e os serviços de Windows relacionados com SQL Server (por exemplo, SQL Server (MSSQLSERVER)) estão configurados para correr automaticamente. O único passo manual envolve ativar análises dentro da base de dados através do uso do Microsoft Machine Learning Server. Execute o seguinte comando para ativar a análise como uma ação única no SQL Server Management Studio (SSMS). Execute este comando depois de efetuar login como administrador da máquina, abra uma nova consulta no SSMS e selecione o master banco de dados:

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS 

(Substitua %COMPUTERNAME% pelo nome da VM.)

Para executar o SQL Server Management Studio, pode procurar por "SQL Server Management Studio" na lista de programas, ou usar o Windows Search para o encontrar e executar. Quando solicitado para credenciais, selecione Autenticação do Windows, e utilize o nome da máquina ou localhost no campo Nome do SQL Server.

Como usá-lo e executá-lo

Por padrão, o servidor de banco de dados com a instância de banco de dados padrão é executado automaticamente. Pode usar ferramentas como o SQL Server Management Studio na VM para aceder localmente à base de dados do SQL Server. As contas de administrador local têm acesso de administrador no banco de dados.

Além disso, a DSVM vem com drivers ODBC e JDBC para comunicar

  • SQL Server
  • Bases de dados do SQL do Azure
  • Recursos do Azure Synapse Analytics provenientes de aplicações escritas em várias linguagens, incluindo Python e Machine Learning Server.

Como ele é configurado e instalado na DSVM?

O SQL Server é instalado da forma padrão. Pode encontrá-lo em C:\Program Files\Microsoft SQL Server. Pode encontrar a instância do Machine Learning Server na base de dados em C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. O DSVM tem também uma instância de servidor de Machine Learning autónoma, instalada em C:\Program Files\Microsoft\R Server\R_SERVER. Estas duas instâncias de Machine Learning Server não partilham bibliotecas.

Ubuntu

Deve primeiro instalar o SQL Server Developer Edition numa DSVM Ubuntu antes de a usar. Visite Quickstart: Instale SQL Server e crie uma base de dados no Ubuntu para mais informações.

Apache Spark 2.x (Autônomo)

Categoria Valor
O que é? Uma instância autônoma (nó único em processo) da popular plataforma Apache Spark; um sistema para processamento de dados rápido e em grande escala e aprendizagem automática
Edições DSVM suportadas Linux
Utilizações típicas
  • Desenvolvimento rápido de aplicações Spark/PySpark localmente com um conjunto de dados mais pequeno, e posterior implementação em grandes clusters Spark como o Azure HDInsight
  • Teste do contexto do Spark do Microsoft Machine Learning Server
  • Use o SparkML ou a Microsoft biblioteca open-source MMLSpark para construir aplicações de ML
Links para exemplos Amostra de Jupyter:
  • ~/notebooks/SparkML/pySpark
  • ~/notebooks/MMLSpark

Microsoft Machine Learning Servidor (contexto Spark): /dsvm/samples/MRS/MRSSparkContextSample.R

Ferramentas relacionadas na DSVM
  • PySpark, Scala
  • Júpiter (Núcleos Spark/PySpark)
  • Microsoft Machine Learning Servidor, SparkR, Sparklyr
  • Apache Drill

Como utilizá-lo

Você pode executar o spark-submit comando ou pyspark para enviar trabalhos do Spark na linha de comando. Você também pode criar um novo bloco de anotações com o kernel do Spark para criar um bloco de anotações Jupyter.

Para usar o Spark do R, utiliza-se bibliotecas como SparkR, Sparklyr e Microsoft Machine Learning Server, que estão disponíveis no DSVM. Consulte os links para exemplos na tabela anterior.

Configuração

Antes de executar num contexto Spark no Microsoft Machine Learning Server, na edição DSVM do Ubuntu Linux, deve completar um passo único de configuração para ativar uma instância local de nó único do Hadoop HDFS e Yarn. Por padrão, os serviços Hadoop são instalados, mas desabilitados na DSVM. Para habilitá-los, execute estes comandos como root pela primeira vez:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Para interromper os serviços relacionados ao Hadoop quando você não precisar mais deles, execute systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.

Um exemplo que demonstra como desenvolver e testar o MRS em um contexto remoto do Spark (a instância autônoma do Spark na DSVM) é fornecido e está disponível no /dsvm/samples/MRS diretório.

Como ele é configurado e instalado na DSVM?

Plataforma Local de instalação ($SPARK_HOME)
Linux /dsvm/tools/spark-X.X.X-bin-hadoopX.X

As bibliotecas para aceder a dados a partir do Azure Blob Storage ou do Azure Data Lake Storage, utilizando as bibliotecas de aprendizagem automática Microsoft MMLSpark, são pré-instaladas em $SPARK_HOME/jars. Esses JARs são carregados automaticamente quando o Spark é iniciado. Por padrão, o Spark usa dados localizados no disco local.

A instância Spark no DSVM pode aceder a dados armazenados no Blob Storage ou no Azure Data Lake Storage. Você deve primeiro criar e configurar o core-site.xml arquivo, com base no modelo encontrado em $SPARK_HOME/conf/core-site.xml.template. Deve também ter as credenciais adequadas para aceder ao Blob Storage e ao Azure Data Lake Storage. Os ficheiros template utilizam marcadores de posição para o armazenamento Blob e as configurações do Azure Data Lake Storage.

Para mais informações sobre a criação de credenciais de serviço Azure Data Lake Storage, visite Autenticação com Azure Data Lake Storage Gen1. Depois de inserir as credenciais para armazenamento Blob ou Azure Data Lake Storage no ficheiro core-site.xml, pode referenciar os dados armazenados nessas fontes através do prefixo URI wasb:// ou adl://.