Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Com um Máquina Virtual de Ciência de Dados (DSVM), você pode criar seus recursos de análise em uma ampla gama de plataformas de dados. Além das interfaces para plataformas de dados remotas, a DSVM oferece uma instância local para rápido desenvolvimento e criação de protótipos.
O DSVM oferece suporte a essas ferramentas de plataforma de dados:
SQL Server Developer Edition
| Categoria | Valor |
|---|---|
| O que é? | Uma instância de banco de dados relacional local |
| Edições da DSVM com suporte | Windows 2019, Linux (SQL Server 2019) |
| Usos típicos |
|
| Links para exemplos |
|
| Ferramentas relacionadas à DSVM |
|
Observação
SQL Server Developer Edition só pode ser usado para fins de desenvolvimento e teste. Você precisa de uma licença ou de uma das VMs SQL Server para executá-la em produção.
Observação
O suporte para Machine Learning Server Standalone terminou em 1º de julho de 2021. Ele foi removido das imagens da DSVM em 30 de junho de 2021. As implantações existentes continuam a ter acesso ao software, mas o suporte terminou após 1º de julho de 2021.
Observação
SQL Server Developer Edition foi removido das imagens DSVM em novembro de 2021. As implantações existentes continuam a ter SQL Server Developer Edition instalado. Em novas implantações, para acessar SQL Server Developer Edition, instale e use-o por meio do suporte do Docker. Visite Início Rápido: execute imagens de contêiner do SQL Server com Docker para obter mais informações.
Windows
Instalação
O servidor de banco de dados já está pré-configurado e os serviços Windows relacionados a SQL Server (por exemplo, SQL Server (MSSQLSERVER)) são definidos para serem executados automaticamente. A única etapa manual envolve habilitar a análise no banco de dados por meio do uso do servidor Microsoft Machine Learning. Execute o comando a seguir para habilitar a análise como uma ação única no SSMS (SQL Server Management Studio). Execute esse comando após fazer login como administrador da máquina, abrir uma nova consulta no SSMS e selecionar o banco de dados master:
CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS
(Substitua %COMPUTERNAME% pelo nome da VM.)
Para executar SQL Server Management Studio, você pode pesquisar "SQL Server Management Studio" na lista de programas ou usar Windows Pesquisar para localizá-la e executá-la. Quando solicitado a obter credenciais, selecione Windows Authentication e use o nome do computador ou localhost no campo SQL Server Name.
Como usá-lo e executá-lo
O servidor de banco de dados com a instância de banco de dados padrão é executado automaticamente por padrão. Você pode usar ferramentas como SQL Server Management Studio na VM para acessar o banco de dados SQL Server localmente. As contas de administradores locais têm acesso de administrador no banco de dados.
Além disso, o DSVM vem com drivers ODBC e JDBC para comunicação
- SQL Server
- bancos de dados SQL do Azure
- Recursos do Azure Synapse Analytics de aplicativos escritos em vários idiomas, incluindo Python e Machine Learning Server.
Como ele é configurado e instalado na DSVM?
SQL Server é instalado da maneira padrão. Você pode encontrá-lo em C:\Program Files\Microsoft SQL Server. Você pode encontrar a instância do Servidor de Machine Learning In-database em C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. A DSVM também tem uma instância de servidor Machine Learning autônoma separada, instalada em C:\Program Files\Microsoft\R Server\R_SERVER. Essas duas instâncias do servidor Machine Learning não compartilham bibliotecas.
Ubuntu
Primeiro, instale SQL Server Developer Edition em uma DSVM do Ubuntu antes de usá-la. Visite Quickstart: instale SQL Server e crie um banco de dados no Ubuntu para obter mais informações.
Apache Spark 2.x (autônomo)
| Categoria | Valor |
|---|---|
| O que é? | Uma instância autônoma (único nó em processo) da popular plataforma Apache Spark; um sistema para processamento rápido de dados em grande escala e aprendizado de máquina. |
| Edições da DSVM com suporte | Linux |
| Usos típicos |
|
| Links para exemplos | Exemplo de Jupyter:
Microsoft Machine Learning Server (Spark Context): /dsvm/samples/MRS/MRSSparkContextSample.R |
| Ferramentas relacionadas à DSVM |
|
Como usá-lo
Você pode executar o comando spark-submit ou pyspark para enviar trabalhos do Spark na linha de comando. Você também pode criar um novo notebook com o kernel Spark para criar um notebook Jupyter.
Para usar o Spark do R, você usa bibliotecas como SparkR, Sparklyr e Microsoft Machine Learning Server, que estão disponíveis na DSVM. Veja links para exemplos na tabela anterior.
Instalação
Antes de executar em um contexto Spark no Microsoft Machine Learning Server na edição Ubuntu Linux DSVM, você deve concluir uma etapa de configuração única para habilitar uma instância Hadoop HDFS e Yarn de nó único local. Por padrão, os serviços do Hadoop serão instalados, mas desabilitados no DSVM. Para habilitá-los, execute esses comandos como root pela primeira vez:
echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn
Para interromper os serviços relacionados ao Hadoop quando não precisar mais deles, execute systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.
Um exemplo que demonstra como desenvolver e testar o MRS em um contexto remoto do Spark (a instância autônoma do Spark no DSVM) é fornecido e está disponível no diretório /dsvm/samples/MRS.
Como ele é configurado e instalado na DSVM?
| Plataforma | Local de instalação ($SPARK_HOME) |
|---|---|
| Linux | /dsvm/tools/spark-X.X.X-bin-hadoopX.X |
Bibliotecas para acessar dados do Armazenamento de Blobs do Azure ou do Armazenamento Azure Data Lake, usando as bibliotecas de aprendizado de máquina do Microsoft MMLSpark, são previamente instaladas em $SPARK_HOME/jars. Esses JARs são carregados automaticamente quando o Spark é iniciado. Por padrão, o Spark usa dados localizados no disco local.
A instância do Spark na DSVM pode acessar dados armazenados no Armazenamento de Blobs ou Azure Data Lake Storage. Você deve primeiro criar e configurar o arquivo core-site.xml, com base no modelo encontrado em $SPARK_HOME/conf/core-site.xml.template. Você também deve ter as credenciais apropriadas para acessar o Armazenamento de Blobs e Azure Data Lake Storage. Os arquivos de modelo usam espaços reservados para armazenamento de Blobs e configurações do Azure Data Lake Storage.
Para obter mais informações sobre a criação de credenciais de serviço Azure Data Lake Storage, visite Authentication com Azure Data Lake Storage Gen1. Depois de inserir as credenciais para armazenamento de Blobs ou Azure Data Lake Storage no arquivo core-site.xml, você pode referenciar os dados armazenados nessas fontes por meio do prefixo de URI de wasb:// ou adl://.