Plataformas de dados com suporte no Máquina Virtual de Ciência de Dados

Com um Máquina Virtual de Ciência de Dados (DSVM), você pode criar seus recursos de análise em uma ampla gama de plataformas de dados. Além das interfaces para plataformas de dados remotas, a DSVM oferece uma instância local para rápido desenvolvimento e criação de protótipos.

O DSVM oferece suporte a essas ferramentas de plataforma de dados:

SQL Server Developer Edition

Categoria	Valor
O que é?	Uma instância de banco de dados relacional local
Edições da DSVM com suporte	Windows 2019, Linux (SQL Server 2019)
Usos típicos	Desenvolvimento local rápido, com um conjunto de dados menor Executar R no banco de dados
Links para exemplos	Uma pequena amostra do Conjunto de Dados de Nova Iorque é carregada para o banco de dados SQL: `nyctaxi` Encontre um exemplo do Jupyter que mostra Microsoft Machine Learning Server e análise no banco de dados em: `~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb`
Ferramentas relacionadas à DSVM	SQL Server Management Studio Drivers ODBC/JDBC pyodbc, RODBC

Observação

SQL Server Developer Edition só pode ser usado para fins de desenvolvimento e teste. Você precisa de uma licença ou de uma das VMs SQL Server para executá-la em produção.

Observação

O suporte para Machine Learning Server Standalone terminou em 1º de julho de 2021. Ele foi removido das imagens da DSVM em 30 de junho de 2021. As implantações existentes continuam a ter acesso ao software, mas o suporte terminou após 1º de julho de 2021.

Observação

SQL Server Developer Edition foi removido das imagens DSVM em novembro de 2021. As implantações existentes continuam a ter SQL Server Developer Edition instalado. Em novas implantações, para acessar SQL Server Developer Edition, instale e use-o por meio do suporte do Docker. Visite Início Rápido: execute imagens de contêiner do SQL Server com Docker para obter mais informações.

Windows

Instalação

O servidor de banco de dados já está pré-configurado e os serviços Windows relacionados a SQL Server (por exemplo, SQL Server (MSSQLSERVER)) são definidos para serem executados automaticamente. A única etapa manual envolve habilitar a análise no banco de dados por meio do uso do servidor Microsoft Machine Learning. Execute o comando a seguir para habilitar a análise como uma ação única no SSMS (SQL Server Management Studio). Execute esse comando após fazer login como administrador da máquina, abrir uma nova consulta no SSMS e selecionar o banco de dados master:

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS

(Substitua %COMPUTERNAME% pelo nome da VM.)

Para executar SQL Server Management Studio, você pode pesquisar "SQL Server Management Studio" na lista de programas ou usar Windows Pesquisar para localizá-la e executá-la. Quando solicitado a obter credenciais, selecione Windows Authentication e use o nome do computador ou localhost no campo SQL Server Name.

Como usá-lo e executá-lo

O servidor de banco de dados com a instância de banco de dados padrão é executado automaticamente por padrão. Você pode usar ferramentas como SQL Server Management Studio na VM para acessar o banco de dados SQL Server localmente. As contas de administradores locais têm acesso de administrador no banco de dados.

Além disso, o DSVM vem com drivers ODBC e JDBC para comunicação

SQL Server
bancos de dados SQL do Azure
Recursos do Azure Synapse Analytics de aplicativos escritos em vários idiomas, incluindo Python e Machine Learning Server.

Como ele é configurado e instalado na DSVM?

SQL Server é instalado da maneira padrão. Você pode encontrá-lo em C:\Program Files\Microsoft SQL Server. Você pode encontrar a instância do Servidor de Machine Learning In-database em C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. A DSVM também tem uma instância de servidor Machine Learning autônoma separada, instalada em C:\Program Files\Microsoft\R Server\R_SERVER. Essas duas instâncias do servidor Machine Learning não compartilham bibliotecas.

Ubuntu

Primeiro, instale SQL Server Developer Edition em uma DSVM do Ubuntu antes de usá-la. Visite Quickstart: instale SQL Server e crie um banco de dados no Ubuntu para obter mais informações.

Apache Spark 2.x (autônomo)

Categoria	Valor
O que é?	Uma instância autônoma (único nó em processo) da popular plataforma Apache Spark; um sistema para processamento rápido de dados em grande escala e aprendizado de máquina.
Edições da DSVM com suporte	Linux
Usos típicos	Desenvolvimento rápido de aplicativos Spark/PySpark localmente com um conjunto de dados menor e implantação posterior em grandes clusters Spark, como Azure HDInsight Testar o contexto do Spark do servidor Microsoft Machine Learning Use o SparkML ou a biblioteca MMLSpark de software livre Microsoft para criar aplicativos ML
Links para exemplos	Exemplo de Jupyter: ~/notebooks/SparkML/pySpark ~/notebooks/MMLSpark Microsoft Machine Learning Server (Spark Context): /dsvm/samples/MRS/MRSSparkContextSample.R
Ferramentas relacionadas à DSVM	PySpark, Scala Jupyter (kernels Spark/PySpark) Microsoft Machine Learning Server, SparkR, Sparklyr Apache Drill

Como usá-lo

Você pode executar o comando spark-submit ou pyspark para enviar trabalhos do Spark na linha de comando. Você também pode criar um novo notebook com o kernel Spark para criar um notebook Jupyter.

Para usar o Spark do R, você usa bibliotecas como SparkR, Sparklyr e Microsoft Machine Learning Server, que estão disponíveis na DSVM. Veja links para exemplos na tabela anterior.

Instalação

Antes de executar em um contexto Spark no Microsoft Machine Learning Server na edição Ubuntu Linux DSVM, você deve concluir uma etapa de configuração única para habilitar uma instância Hadoop HDFS e Yarn de nó único local. Por padrão, os serviços do Hadoop serão instalados, mas desabilitados no DSVM. Para habilitá-los, execute esses comandos como root pela primeira vez:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Para interromper os serviços relacionados ao Hadoop quando não precisar mais deles, execute systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.

Um exemplo que demonstra como desenvolver e testar o MRS em um contexto remoto do Spark (a instância autônoma do Spark no DSVM) é fornecido e está disponível no diretório /dsvm/samples/MRS.

Como ele é configurado e instalado na DSVM?

Plataforma	Local de instalação ($SPARK_HOME)
Linux	/dsvm/tools/spark-X.X.X-bin-hadoopX.X

Bibliotecas para acessar dados do Armazenamento de Blobs do Azure ou do Armazenamento Azure Data Lake, usando as bibliotecas de aprendizado de máquina do Microsoft MMLSpark, são previamente instaladas em $SPARK_HOME/jars. Esses JARs são carregados automaticamente quando o Spark é iniciado. Por padrão, o Spark usa dados localizados no disco local.

A instância do Spark na DSVM pode acessar dados armazenados no Armazenamento de Blobs ou Azure Data Lake Storage. Você deve primeiro criar e configurar o arquivo core-site.xml, com base no modelo encontrado em $SPARK_HOME/conf/core-site.xml.template. Você também deve ter as credenciais apropriadas para acessar o Armazenamento de Blobs e Azure Data Lake Storage. Os arquivos de modelo usam espaços reservados para armazenamento de Blobs e configurações do Azure Data Lake Storage.

Para obter mais informações sobre a criação de credenciais de serviço Azure Data Lake Storage, visite Authentication com Azure Data Lake Storage Gen1. Depois de inserir as credenciais para armazenamento de Blobs ou Azure Data Lake Storage no arquivo core-site.xml, você pode referenciar os dados armazenados nessas fontes por meio do prefixo de URI de wasb:// ou adl://.

Comentários

Esta página foi útil?

Last updated on 2026-04-10

Plataformas de dados com suporte no Máquina Virtual de Ciência de Dados

SQL Server Developer Edition

Windows

Instalação

Como usá-lo e executá-lo

Como ele é configurado e instalado na DSVM?

Ubuntu

Apache Spark 2.x (autônomo)

Como usá-lo

Instalação

Como ele é configurado e instalado na DSVM?

Comentários

Recursos adicionais